最近更新时间:2021-06-07
从对象存储导入数据集时,数据格式需要遵守一定的规范,平台才能理解数据的标注信息。如果不遵守数据格式规范,则导入的数据是未标注数据。
当前“图像分类”、“物体检测”、“文本分类”和“声音分类”4种类型的数据集支持从对象存储导入。
图像分类的数据要求将相同标签的图片放在一个目录里,并且目录名字即为标签名。
对象存储目录示例如下所示,其中Apple和Pear分别为标签名。
您需要具备此对象存储目录的读取权限。
每类标签只支持单标签。
只支持JPG、JPEG、PNG、BMP格式的图片。单张图片大小不能超过5MB。
物体检测的数据要求将标注对象和标注文件存储在同一目录,并且一一对应,如标注对象文件名为“image-1.jpg”,那么标注文件的文件名应为“image-1.xml”。
物体检测的标注文件需要满足PASCAL VOC格式:
<?xml version="1.0" encoding="UTF-8"?> <annotation> <filename>street1.jpg</filename> <size> <width>300</width> <height>225</height> </size> <object> <name>people</name> <bndbox> <xmin>145</xmin> <ymin>87</ymin> <xmax>291</xmax> <ymax>185</ymax> </bndbox> </object> <object> <name>car</name> <bndbox> <xmin>18</xmin> <ymin>50</ymin> <xmax>142</xmax> <ymax>158</ymax> </bndbox> </object> </annotation>
street1.jpg 300 225 people 145 87 291 185 car 18 50 142 158
street1.jpg 300 225 people 145 87 291 185 car 18 50 142 158
配置 | 是否必填 | 说明 |
---|---|---|
filename | 是 | 被标注文件的文件名。 |
size | 是 | 表示图像的像素信息。 · width:必选字段,图片的宽度。 · height:必选字段,图片的高度。 |
object | 是 | 表示物体检测信息,多个物体标注会有多个object体。 · name:必选字段,标注内容的类别标签。 · bndbox:必选字段,标注框的4点坐标。 |
对象存储目录示例如下所示。
您需要具备此对象存储目录的读取权限。
只支持JPG、JPEG、PNG、BMP格式的图片,单张图片大小不能超过5MB。
文本分类的标注对象和标注文件均为文本文件,并且以行数进行一一对应,例如标注文件中的第一行表示的是标注对象中第一行的标注。
例如,标注对象“file-1.txt”的内容如下所示。
春天来了万物从沉睡中苏醒,春草、树木开始抽出嫩芽。 夏天到了草原上的草长高了,随风摇摆,连绵不断,似大海浪起伏。 枫树姐姐飘落着红叶,仿佛在迎接丰收的一年。 北燕南飞,活跃在田间草际的昆虫都销声匿迹了。于是家乡又进入了风雪载途的寒冬。
春天来了万物从沉睡中苏醒,春草、树木开始抽出嫩芽。 夏天到了草原上的草长高了,随风摇摆,连绵不断,似大海浪起伏。 枫树姐姐飘落着红叶,仿佛在迎接丰收的一年。 北燕南飞,活跃在田间草际的昆虫都销声匿迹了。于是家乡又进入了风雪载途的寒冬。
标注文件“file-1_result.txt”的内容如下所示。
spring summer autumn winter
spring summer autumn winter
对象存储目录示例如下所示。
您需要具备此对象存储目录的读取权限。
只支持txt或者csv格式的文件,以换行符作为分隔符,每行数据代表一个标注对象。单个文本大小不能超过8MB。文本的编码格式只能是:ASCII、ISO-8859-1、GB2312、GBK、UTF-8、UTF-16这6种,其他的编码格式文本不会导入。
声音分类的数据要求将相同标签的声音文件放在一个目录里,并且目录名字即为标签名。
对象存储目录示例如下所示,其中Bird和Plane分别为标签名。
您需要具备此对象存储目录的读取权限。
只支持wav格式的音频,单个音频文件不能超过4MB。