任务生命周期
接收任务
CPodManager 作为总接口接收用户提交的训练任务,提交任务时需提供如下参数:
- 任务类型
- 容器镜像
- 启动命令
- 模型名称
- 模型读取路径
- 数据集名称
- 数据集读取路径
- CheckPoint 保存路径
- Saved-Model 保存路径
- GPU 类型
- GPU 数量
- 存储大小
- 内存大小
处理任务类型
- 三千平台目前支持如下几种任务类型,可根据不同训练框架选择对应的任务类型:
- MPIJob
- PyTorchJob
- TensorFlowJob
- GeneralJob
- 根据提交的任务类型生成相应 Job 的 yaml 格式配置
- 根据提交任务的启动命令配置 Job Pod 拉起后执行的训练程序