首页 > 编程知识 正文

大数据概论期末考试,大数据概论基础测试题

时间:2023-05-03 13:13:27 阅读:159525 作者:1397

这两天有很多朋友想在后台学习数据标注,所以想写一系列的文章,系统地介绍数据标注。 这是为了让大家对数据表示有全面的理解。 无论您是想从事数据标注工作,还是创办公司进行数据标注,都需要全面了解数据标注本身。

一.数据标注的起源与发展

数据标记与人工智能共存,在研究数据标记的同时,首先需要了解人工智能。 人工智能的概念是yjddsl俊秀的乌龟于1956年在达特茅斯会议上提出的,意味着让机器人拥有像人一样的智能行为。

在人工智能概念提出的60度期间也是大起大落,这次的人工智能我们迎来了第三次人工智能浪潮。 第一次浪潮是在会议之后的20年里。 当时,对于人工智能此次兴起,专家学者ddz指出,未来10年机器人将超越人类,但当我们期待人工智能的春天到来时,却发现,在20世纪70年代后期,过去的理论和模型智能被用于一些解决方案

随后经过短暂的低谷,随着20世纪80年代双层神经网络(BP网络)的兴起,人工智能开始焕发出新的生机,迎来了第二次发展浪潮,在此期间,语音识别、语音翻译以及感知机模型成为典型代表但这些现在看起来都是普通的应用,那时还离人们的实际生活很远,人工智能也进入了第二个冬天。

然后,第三波从deepblue(IBM蓝)的出现开始,1997年战胜了国际象棋冠军。 而2006年“神经网络之父”Geoffrey Hinton提出的深度学习技术进一步促进了人工智能的发展,该技术在2010年成为一大商品,直接引发了第三波爆炸。

从人工智能的发展脉络来看,在前两次发展浪潮中,人工智能虽然跌宕起伏,但从未真正进入人们的生活。 因此,由于当时量的水平比较小,研究为人工智能提供数据的数据标记工作的工程师就完成了,并不是独立的职业。 但随之而来的是第三次浪潮,数据标记需求甚多,2011年数据标记外包市场开放,2017年进入爆发阶段,数据标记开始慢慢进入人们的视野。

二.涉及到的几个概念

1 .数据标记(数据注释)。

对文本、图像、音频、视频等待标注数据进行分类、组织、编辑、纠错、标注、标注等操作,对待标注数据进行标注,生产出满足机器学习训练要求的机器可读数据码。

2 .标签(标签)。

可以用于识别数据特征、类别、属性等,建立数据与机器学习训练要求中定义的机器可读数据代码的关系。

3 .标记工作(annotation task ) )。

根据数据标记规范标记数据集的过程。

4 .数据标记(数据标签) )。

负责对文本、图像、音频和视频等注释数据进行分类、组织、编辑、纠错、标记和注释等操作的人员。

5 .标注工具)。

数据标记人员完成标记工作并生成标记结果所需的工具和软件。 根据自动化程度,标注工具分为半自动和自动三种。

三.数据标注分类

1 .图像标注

图像表示的场景现在也使用得非常广泛。 主要的书写方法有点阵标记、边框标记、区域标记、3D标记、分类标记等。 安防、教育、自动驾驶等应用场景也非常多,目前落地成熟的是人脸识别。 即使进行了几个认证验证,即使在外出时做地铁或高铁也有可能使用。

2 .语音标注

语音应答交互也是当前重要的分支,因此在这种语音虚拟助手的开发中,基于语音识别、声纹识别、语音合成等建模与测试的需求,针对数据进行了发音者的角色标记、环境场景标记、多语言标记、tonesbi (tonesbi

3 .文本书写

自然语音处理是人工智能的分支科学,为了满足自然语音处理不同层次的需要,对文本数据进行标记处理至关重要。 具体来说,通过句子分词表示、语义判定表示、文本翻译表示、感情色彩表示、拼音表示、多音字表示、数字表示等,可以提供高精度的文本预测。

四.数据标注流程概述

1 .数据收集

整个数据收集和检索过程的第一阶段。 目前,在数据标注众包平台上,其数据主要来源于提出标注需求的人工智能公司。 这些人工智能公司的数据来自哪里? 常见的做法是获取通过互联网公开的数据集和专门的数据集。 公开数据集是政府、科研机构等对外开放的资源,获取相对简单,但专业数据往往更消耗人力资源,有时需要人工采集、购买,或者通过拍摄、录像等自主手段获取。

2 .数据清洗

检索数据后,并不是所有数据都可以直接使用

用,有些数据是不完整、不一致、有噪声的脏数据,需要通过数据预处理,才能真正投入问题的分析研究中。在预处理过程中,要把脏数据“洗掉”的数据清洗是重要的环境。

    在数据清洗中,应对所采集的数据进行筛检,去掉重复的、无关的数据,对于异常值与缺失值进行查缺补漏,同时平滑噪声数据,最大限度纠正数据的不一致行和不完整性,将数据统一成合适于标注且与主题密切相关的标注格式,以帮助训练更为精确的数据模型和算法。

    3.数据标注

    数据经过清洗,即可进入数据标注的核心环节。

    4.数据质检

    无论是数据采集、数据清洗,还是数据标注,通过人工处理数据的方式并不能保证完全准确。为了提高数据输出的准确率,数据质检成为重要的环境,而最终通过质检环节的数据才算是真正的过关。  

    以上就是数据标注的基本概念和能涉及到的环节,可以对感兴趣的环节进行深入的学习了解,如果有机会可以从事相关行业,也希望可以在这条路上可以给各位小伙伴提供帮助。有人预测未来将有超过500万人会从事数据标注相关的工作,我也希望可以成为这部分人的pbdfd,相互学习相互进步。

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。