最近更新时间:2021-06-07
训练任务提供了自定义算法和预置算法。
在自定义算法中,集成了多种开源的深度学习框架和不同版本,您可以使用不同的框架,编写代码进行多轮训练和迭代,并使用分布式训练任务。
除支持您自己开发的算法外,平台还提供了预置算法,您可以不关注代码开发,直接使用预置算法和数据,得到一个满意的模型。
训练任务提供了版本管理功能,您可以修改已完成的任务配置,快速建立新的任务版本。
训练数据已完成准备:已在AI开发平台本地存储中创建可用的数据集,或者您已将用于训练的数据集上传至对象存储目录,或者您已经完成标注并发布了数据集版本。
训练代码已准备完成,训练代码上传到对象存储目录或者本地存储中。
已在对象存储或者本地存储创建1个文件夹,用于存储训练输出的内容。
由于训练作业运行需消耗资源,确保账户未欠费。
如果使用对象存储,确保您使用的对象存储目录与AI开发平台在同一区域。
登录紫光云控制台,选择产品与服务->人工智能->AI开发平台。
选择左侧“训练任务”,点击“创建任务”,进入新建任务弹窗。在弹窗中填写任务名称等配置。
配置 | 是否必填 | 说明 |
---|---|---|
名称 | 是 | 仅支持小写字母、数字和'-',且需以小写字母开头、总长度不超过32,同用户下不重复 |
任务版本 | 是 | 以v0.0.1形式默认递增 |
描述 | 否 | 128字符以内 |
算法来源 | 是 | 提供预置算法和自定义算法两种方式 1. 预置算法:平台提供3种预置算法,并提供公共训练数据,您可以直接使用。详见预置算法。 2. 自定义算法:选择训练框架,您还需提供训练代码和数据。 |
计算框架 | 是 | 下拉选择计算框架的版本 |
算法文件路径 | 是 | 从对象存储/本地存储中选择算法文件路径,该路径会读写挂载(RW)到运行环境内部"./"目录下,在"./"目录下的操作会同步到对象存储/本地存储中。 |
启动命令 | 是 | 训练任务启动时的运行命令,当前目录为上方算法文件路径选择的目录 |
数据来源 | 否 | 选择的数据来源会被只读挂载(RO)到运行环境内“../data”目录下,数据来源支持本地存储/对象存储/数据集 |
环境变量 | 否 | 以Key和Value的形式填写,并export到在线服务容器中 |
训练输出路径 | 是 | 从对象存储/本地存储中选择训练输出路径,平台会在该路径下建立"./job-{ID}-{VERSION}"子目录, 并将该子目录读写挂载到运行环境内"../output"目录下。请您将模型和日志等重要内容保存到运行环境"../output"路径下,这些内容会自动同步到对象存储/本地存储"训练输出路径/job-{ID}-{VERSION}"目录。 |
分布式训练模式 | 是 | 根据选择不同的计算框架,支持多种分布式训练模式 |
资源池 | 是 | 资源池可选公共资源池或者专属资源池 1. 选择公共资源池时,需要从资源规格中选择一种套餐,CPU比GPU套餐价格便宜 2. 选择专属资源池的前提是您已经创建了专属资源,在资源规格中列出了专属资源列表,您填写资源套餐后,Notebook实例会启动在您自己的专属资源池中。 注意:资源套餐填写要合理。 |
资源套餐 | 是 | 请选择CPU或者GPU的套餐 |
点击确定后,即可创建训练任务。
训练任务完成后,任务状态流转为“已成功”。
框架 | 框架版本 | 训练模式 |
---|---|---|
TensorFlow | TensorFlow-v1.12.0-py27 TensorFlow-v1.12.0-py36 TensorFlow-v1.14.0-py27 TensorFlow-v1.14.0-py36 | 单机 MultiWorker PsWorker Horovod |
Pytorch | PyTorch-v1.1.0-py27 PyTorch-v1.1.0-py36 PyTorch-v1.2.0-py27 PyTorch-v1.2.0-py36 | 单机 MasterWorker Horovod |
Caffe | Caffe-v1.0.0-py27 Caffe-v1.0.0-py36 | 单机 |
Caffe2 | Caffe2-pt1.1.0-py27 Caffe2-pt1.1.0-py36 | 单机 |
MXNet | MXNet-v1.4.0-py27 MXNet-v1.4.0-py36 | 单机 |
SKLearn | SKLearn-v0.21.2-py27 SKLearn-v0.21.2-py36 | 单机 |
Keras | Keras-v2.2.4-tf1.12-py27 Keras-v2.2.4-tf1.12-py36 | 单机 Horovod |