首页 > 编程知识 正文

大数据标注员是什么(数据标注从什么时候开始的)

时间:2023-05-03 12:37:22 阅读:101640 作者:4213

密集的工作站上有一排排整齐的电脑,员工在这里浏览图片、观看视频或听声音,一边看,一边标记所看到的内容。一些人在为无人驾驶公司标记汽车和红绿灯,一些人在为教育机构标记课程对话,还有一些人在标记医院病历。

说到数据标注行业,人们的第一印象总是直接定义为劳动密集型行业。依靠视觉冲击,在对数据标注行业有了基本了解后,忍不住发表了自己的看法:这不是富士康吗?或者我们看到一些关于数据行业的新闻报道,突出“重复性工作”、“低学历”、“艰苦条件”,但实际上,数据标注行业已经经历了小作坊的粗放作风,开始进入“以技术取胜”的时代。

如何给数据贴标签?

如今,大多数数据都没有标注。标记数据意味着标记或注释目标模型的数据,以便可以对其进行预测。一般来说,数据标注包括数据标注、标注、审核、分类、转录和处理。

标记数据突出一些特征,并根据这些特征进行分类,该模型可用于分析其模式以预测新目标。例如,对于自动驾驶汽车中的计算机视觉,AI专业人员或数据标注人员可以使用视频标注工具,通过行人和其他车辆的位置来指示街道标志和火车模型的位置。

数据标注本身也需要AI来辅助。

文章开头我们说数据标注正在走向“技术胜”的时代,所以数据标注行业也在用AI来提高工作效率。

目前,在数据标注过程中引入技术是行业的普遍做法,让经过训练的AI模型反馈人工标注也是标注技术公司的优势。

像LabelIme一样,支持对象检测、图像语义分割和数据标注;Photoshop可以选择批注界面和工具;点云注释工具支持3D BOX生成和KITTI-xsdggx格式数据。

比如AI辅助的点制,过去注释者想要精细描述一辆车的轮廓,要手工标注30多点。如果标记一辆车需要1分钟,那么标记图片中的所有对象平均需要1小时。

“借助AI辅助功能,现在你只需要在车外轮廓上随机命中4个点,系统就会自动命中全部30个点,轮廓贴合性很好。这样,手动点的数量可以减少到4个,只需要微调,时间减少了一半,提高了效率。”

AI数据标注的智能语义分割(来源:贝赛数据)

但是在一些全新的领域,机器还不能辅助人类工作,数据标注还是需要人工完成。即使有了AI自动贴标工具,人们仍然要做审计和质量检查的最后一步。

数据标注更像是一个裁缝。

2017年《经济学人》发表的封面文章提出了一个问题:数据更像是存在还是阳光?

不可否认,数据是“世界上最宝贵的资源”,数据是未来的石油。但是,相比于油、打字员、培训师的定义,我们把数据标签比作“巧妙的裁缝”更为合适。贴标工程师根据行业要求和用户的非标准化需求,量身定制服装。一条数据的完成还需要经过材料选择(选择合作伙伴、委派标记任务)、测量(数据收集、数据标记)、拟合(数据提交、数据质量检查)和样本修改(数据修改、提交和批准)。每一步都不能错,每一步都不可或缺。

高质量的数据标注需要高学历和相关资质证书。

报道称,我们看到的像百度山西基地,大部分都有大学背景,经过培训后可以掌握一般的取景和打点任务。但涉及到医疗、金融、语言、法律等专业领域,往往需要有专业知识的数据标注师进行标注。

比如2017年,谷歌AI发表了一项突破性的研究成果:通过机器学习技术,AI可以从患者的视网膜眼底照片中自动诊断出潜在的病变,从而提前发现糖尿病视网膜病变,及时治疗和预防糖尿病视网膜病变,保持患者视力。

(像这个,能告诉我哪个有病吗?)

而且如果你想收到类似上面提到的谷歌的数据表,你需要获得博士资格证书。同样,在标注法律文件或分析投融资事件时,也需要相关专业。

本科生来完成。所以你还认为数据标注是一项简单的工作吗?

人工智能取代了大量的工作,那么数据标注呢?

据时代的历史,大约公元前18000年人类用计数棒进行储存和分析数据;dldzt的骨头于1960年在现在的乌干达发现,这被认为是史前数据存储的最早证据之一;在公元前2400年,算盘作为第一个专门用于计算的专用设备在巴比伦开始使用。第一座图书馆也是在这个时候出现的,这是人类首次尝试大规模的数据存储。

从古至今,人类发展都离不开数据。随着近几年“数据时代”、“人工智能”成为热点词,人工智能发展成熟到一定阶段,当AI代替了大量人类工作的时候,不会仅仅是个别行业的零星问题,最终的发展方向只会是更加专业的数据标注人才取代基础工种。

就人才需求层面来讲:

《新一代人工智能发展规划》提出,到2020年人工智能总体技术和应用与世界先进水平同步,核心产业规模超过1500亿元,到2025年人工智能核心产业规模超过4000亿元,到2030年人工智能理论、技术与应用总体达到世界领先水平,核心产业规模超过1万亿元。随着政策的进一步推动以及技术的进步成熟,人工智能产业落地速度将明显提速,中国AI数据服务行业也将迎来巨大的发展浪潮。

相关调查显示,2019年,企业在数据标签上的支出超过17亿美元。到2024年,这一数字将达到41亿美元,因此目前的数据标注人才仍旧处在一个极为紧缺的阶段。

虽然在未来,AI很有可能发展到“自己教自己”这一步。但目前为止,大部分的数据标注工作都是由真人完成的。这个工作不像大家想象的那么简单,而是充满了复杂的判定和繁琐的重复。

而随着人们对数据的需求越来越高,也有越来越多的人开始靠标注数据为生。

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。