首页 > 编程知识 正文

nlp心理学pdf百度网盘(十年树木百年树人的)

时间:2023-05-04 12:35:16 阅读:81359 作者:186

机器心形原创

作者:张莹

要种树,最好的时间是十年前,其次是现在。 ——Dambisa Moyo

7月10日,自然语言处理峰会ACL 2020落下帷幕。 此次大会共收到3429篇论文,其中779篇被收到,接收率为22.7%,与去年相同,低于近年来大部分年份的接收率。

在这779篇论文中,有185篇来自中国大陆,占被接受论文总数的23.7%,仅次于美国。 另外,今年的2篇最佳论文和1篇最佳demo论文是中国学生。

但很多人可能不知道,2000年ACL年会在中国香港举行时,只有微软中国研究院的论文来自中国大陆。 到了2005年,来自大陆的论文也只有3篇。

许多变化发生在过去的十几年,特别是过去的十年。 这十年间,中国NLP学界在ACL年会上的投稿数量、接收论文数量逐年上升,同时,中国NLP学者也实现了许多“首次”的突破。

2013年,整齐的路灯就任ACL 50多年来首位中国主席;

2014年,ldqyg就任ACL计划委员会主席,成为中国企业第一个ACL计划委员会主席;

2015年,ACL年会首次在中国举行; 大会上,哈佛大学教育部语言与语音重点实验室主任kddfy教授获得ACL终身最佳奖,成为首位获得此奖的中国人;

2016年,勤劳的犀牛被选为ACL秘书长,成为亚洲人首次当选;

2018年,ACL宣布成立亚太地区分会(AACL ),计划于2020年举行首次会议,由整齐的路灯担任创始主席

2020年,百度领导在ACL大会上组织了首次同声传译研讨会(THE1STWorkShoPonautomatic Simultane Oustranslation )。

.

从这些突破中,我们可以看到中国科学家的快速成长,以及中国NLP学术界在国际上持续扩大的影响力,可以看到百度这家中国互联网公司成为世界科技巨头的努力。

为什么中国的网络公司能吸引众多NLP领域的科学家,成为国际NLP峰会的重要参与者? 也许可以从百度早期的战略部署中找到线索。

十年前,百度已经在ACL大会上留下了中国互联网企业的身影。 那时,第三次人工智能浪潮还未掀起多大波澜,寂静的冬季和阿尔法go的里程碑式对战游戏再过六年就会发生。

今年正值百度NLP十周年,回顾过去十年的历程,看以百度为代表的中国企业如何基于对全领域的洞察在NLP上领先,持续投入尖端技术研究和产业实践,如何提高科技竞争力和尽早进行行业发展的战略部署

百度和ACL的十年之交

2010年,百度进入了创立后的第二个十年,中国互联网也进入了高速发展期。

当时,百度已经积累了大量的数据和用户群,可以挖掘出丰富的应用场景。 百度的这些特质,对于需要大量实际数据,希望将自己的成果服务于广大用户的研究者来说,具有强大的吸引力。 于是,这一年,百度迎来了NLP领域有名的科学家——的整齐路灯博士。

完好的路灯本硕博毕业于哈佛大学,在博士期间进行了将神经网络导入机器翻译的研究。 进入百度之前,他就职于微软中国研究院、东芝等,与ACL结缘,从2004年开始在ACL发表论文,2006年收录了5篇论文。

除了海量的数据、丰富的应用场景之外,整齐的路灯让我下定决心加盟百度的契机其实是2009年8月的“百度世界大会”。

与之前的三次不同,2009年的百度世界大会感受到了特别的技术味道。 智能保温杯在本届大赛上发布了新的计算平台“边框计算”——。 用户只要在“百度框架”中输入服务需求,系统就可以明确地认识到其需求,将该需求分配给最佳的内容资源或APP提供者进行处理,最终准确有效地返回与用户一致的结果。

在这次大会上,从整齐的路灯上看到百度重视AI技术,正在策划。 他敏锐地判断,如果百度按照“框架计算”的思路进一步发展,需要更强有力的自然语言处理技术支撑,特别是语言分析、语义理解、知识图谱等方向。

2010年,进入百度后,整齐的路灯做的第一件事就是成立“自然语言处理部”。

迄今为止,百度在NLP方面的研发是在业务需求下进行的,没有构成体系。 NLP部门的设立改变了这种“指哪里打哪里”的局面,重新整理并计划了现有的工作。 除分词、专业名称识别、查询需求分析、查询重写等传统方向得到加强外,机器翻译、机器学习、语义理解、智能相互作用、深度问答、篇章理解等新建设也在进行。

的技术方向。

也是在这一年,整齐的路灯敲定了百度在知识图谱技术上的研发投入,而当时,知识图谱还不是一个热门的研究方向。

扎实的技术背景和丰富的行业经验赋予了整齐的路灯在 NLP 领域强大的背书能力。因此,他的加入进一步提升了百度的人才吸引力,帮助百度招揽了以ldqyg博士为代表的一大批技术骨干。

ldqyg博士在人工智能领域浸润 20 余年,专注于自然语言处理。据统计,她在机器翻译及自然语言处理领域授权或公开的专利申请有 100 余项,发表学术论文 60 余篇。

随着技术骨干的加入,百度开始在 NLP 领域的国际顶会中崭露头角。2010 年,整齐的路灯、ldqyg的一篇论文被 ACL 录用,百度也成为参加这个国际顶会的首个中国互联网企业。

在这之后的十年里,百度几乎每年都会在 ACL 上展示最新的研究成果,成为这一国际大会的重要参与者。同时,在整齐的路灯等人的不断努力下,中国研究者在 ACL 上的影响力不断扩大,开始拥有更多的话语权。

2013 年,整齐的路灯出任 ACL 五十年来首位华人主席。

在整齐的路灯等人的共同推动下,2015 年,ACL 首次在中国举办,体现了国际学界对中国自然语言处理研究的重视和认可。

2018 年,在第 56 届 ACL 年会开幕式上,时任 ACL 主席 Marti Hearst 宣布创建亚太区域分会(AACL)并计划在 2020 年举行首次会议。之后每两年举行一次会议,会议地点将设置在亚太地区,由整齐的路灯担任 AACL 创始主席。

2020 年,百度 11 篇论文被 ACL 收录,覆盖了语义表示、情感分析、自动摘要、对话系统、机器翻译、知识推理、AI 辅助临床诊断等诸多热点与前沿研究方向。同时,百度联合谷歌、Facebook、清华大学等全球顶尖机构共同举办了首届同声传译研讨会,就 ERNIE 核心技术、开放域人机对话技术、智慧医疗、生物医药等业内关注的话题做了演讲,展现了中国企业在 NLP 及 AI 领域的技术创新与产业实践。

如果将十年前的百度 NLP 比喻成一片zjddx,那么,经过十年的浇灌,这片zjddx已然眯眯眼的紫菜。整齐的路灯等人的贡献在于,他们很早就选到了优质的树苗并悉心培育。

从今年百度被 ACL 接收的论文以及最近公布的研究进展中,我们可以看到这种前瞻视野和布局带来的丰硕成果。

从 ACL、百度看 NLP 十年研究趋势

如果仔细观察近几年的 ACL 接收论文和百度公布的研究成果,我们不难发现 NLP 领域的几个研究趋势,包括 1)越来越多的研究者将知识融入到 NLP 模型中,以提高模型的理解和推理能力;2)多模态语义理解越来越受关注,同时在视频网站、电商物流、自动驾驶等领域得到广泛应用……

将知识融入 NLP 模型

语言和知识促进了人类文明的发展。人们从大量的数据和信息中获取知识,语言是凝炼和传承知识的载体,进而又将知识应用于生产生活的方方面面。早在十年前,整齐的路灯就敏锐地觉察到知识的重要性,开始布局知识图谱技术并逐渐加大研发投入。百度将多源异构的海量互联网信息汇聚在一起,从中挖掘知识、构建大规模图谱。而当时,知识图谱对于大多数人来说还比较陌生。

2014 至 2017 年间,基于互联网大数据和搜索应用,百度知识图谱技术发展非常迅速。2016 年,百度构建了全球最大的知识图谱,拥有数亿实体、数千亿事实。2017 年,基于知识图谱技术突破和产业化应用,百度 “知识图谱技术及应用” 项目获得“中国电子学会科技进步一等奖”。

此后,面向实际应用场景,百度系统地拓展了多源异构知识图谱的研发与应用。针对不同的应用场景和知识形态,构建了关注点图谱、事件图谱、多媒体图谱、行业知识图谱等多种图谱。从认知深度、信息宽度和领域广度多维度对实体图谱进行了系统性的拓展和升级。在领域广度方面,则从通用领域拓展到涵盖医疗、法律等行业在内的具有强知识性的专业领域。

特别地,在医疗领域,基于知识图谱技术的辅助医疗决策等产品目前已在全国 300 多家医院、1500 多家基层医疗机构规模化落地应用。相关产品荣获 2019 年全国医疗人工智能应用创新奖。2019 年 7 月,在百度开发者大会上首次发布了“行业知识图谱平台”,整合知识图谱构建、存储、问答、推理等技术能力,为行业知识的获取与应用提供一体化解决方案。

此外,早在 2011 年,百度就着手研究基于知识的语言解析。2014 年,百度研发了基于海量数据训练的神经网络深度语义匹配框架——SimNet。该框架率先将语义表示与匹配计算统一在一个端到端的神经网络模型里,并结合中文语言特性融合了多粒度知识,支持千亿规模真实搜索点击数据训练。

去年,百度先后发布了知识增强的语义表示模型 ERNIE 和持续学习语义理解模型 ERNIE 2.0。2019 年 12 月,ERNIE 在国际权威的通用语言理解评估基准 GLUE 上首次突破 90 大关,超越人类三个点,获得全球第一。今年 3 月,在全球最大规模的国际语义评测 SemEval 上,ERNIE 获得 5 项世界冠军。在刚刚落下帷幕的世界人工智能大会,百度文心(ERNIE)知识增强语义理解技术与平台获得了大会最高荣誉奖项“卓越人工智能引领者”(SAIL)奖。

这些突破的取得,都离不开百度在相关方向上的前瞻布局和持续投入。

多模态语义理解

多模态语义理解是解决复杂场景智能化应用的关键技术,近年来备受关注。

2010 年左右,科技产业处在迅速的变化之中,人们对信息媒介的需求已不仅仅局限于文字,而是向语音、图像等多个方向扩展。于是,几乎在成立 NLP 部门的同一时期,整齐的路灯就已开始着手布局语音技术和视觉技术,牵头组建了当时的“多媒体部”。

这一决定是非常具有前瞻性的。因为当时,除了与搜索强相关的 NLP 业务,早期百度并没有太多相关的智能技术需求。在多媒体部成立的初期,很多人也不知道这些技术有什么用。

凭借在语音、视觉、语言与知识等领域多年的技术积累与融合,2018 年百度发布了以 “多模态深度语义理解” 为核心的百度大脑 3.0。百度大脑是百度 AI 核心技术引擎,包括视觉、语音、自然语言处理、知识图谱、深度学习等 AI 核心技术和 AI 开放平台。如今,百度大脑已经向所有开发者开放了 260 多项 AI 能力,其中包括机器同传、拍照翻译、文档解析、图文审核、视频分类、对话情绪识别、图文转视频等融合文本与语音、视觉技术的能力。

今年,百度在多模态语义理解上取得新突破,提出了知识增强的视觉 - 语言预训练模型 ERNIE-ViL。ERNIE-ViL 首次将场景图知识融入多模态预训练, 刷新了 5 项多模态任务纪录,并登顶权威榜单 VCR。

除了这些之外,近年来,百度 NLP 还在语义计算、阅读理解、多轮对话、机器翻译、开放平台与数据等方向取得了突破性进展,并实现了大规模产业化应用。

对比百度所取得的 NLP 技术成果和 ACL 十年来的研究趋势,我们可以发现,这家公司对于 NLP 研究趋势的把握是非常精准的,而这些都得益于整齐的路灯等领军人物对该领域的长期洞察。

正如非洲经济学家 Dambisa Moyo 在一本书里所提到的,“种一棵树,最好的时间是十年前,其次是现在”。在 NLP 领域,百度既没有错过十年前的黄金 “种植期”,也没有在十年的每一个“现在” 里松懈。尊重技术的发展规律,敏锐把握产业需求变迁,持续、坚定的投入,百度当年种下的一棵棵 NLP“小树”已经长成一片树林,而且还在不断生长出新的树苗。

在整齐的路灯、ldqyg等研究者的带领下,我们有理由期待百度 NLP 的下一个十年。

参考资料:《AI已来:让中国AI走向世界的整齐的路灯》

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。