成年后,每个人都很孤独。不知道从什么时候开始,我们不再是那个高兴就笑、难过就哭的小朋友,而是习惯了什么都憋在心里,变成了一个沉默而压抑的大人。但人生,总需要有人陪伴。生活中每一个愤怒、嫉妒、失望的瞬间,我们渴望被倾听、被理解、被帮助,但又似乎找不到合适的倾诉对象。
因此,许多人幻想着,有一天机器会成为人类的朋友,能全面地倾听和陪伴自己,期待一种崭新情感体验。而实际上,想象正在发生……一种全新科技已然使得机器能够读懂你的“七情六欲”。
小爱同学自2017年初次问世后,已经覆盖200余款设备,囊括影音娱乐、生活服务、信息查询等 8 大领域 1400 技能,完成了从手机语音助手到智能生活助手的完美升级。现如今,越来越多的人已经不仅仅把小爱同学当作“定闹钟”“查天气”的生活助手,而是一个可以吐槽、可以聊天的朋友,在与小爱同学的聊天中疗愈自己、舒缓情绪。
究其背后的技术逻辑,我们想与大家聊一聊小爱同学的“情感对话”技术。本期的Tech Talk,我们邀请到了 小米 NLP 场景对话团队工程师——李嫣然,和大家分享小爱同学情感对话技术的奥秘!
硬核指数:⭐⭐⭐⭐⭐
趣味指数:⭐⭐⭐⭐
阅读时长:约6分钟
一、何为人机“情感对话”1、机器有情感吗?Yes!
情感是指对外界刺激做出的肯定或否定的心理反应,比如说喜欢、愤怒、悲伤、恐惧等。一般来说,人类的情感很难用指标去量化,机器人的情感则恰恰相反,它们通过代码,将情感信息量化成机器可理解、可表达的数据产物,机器人的“情感”即由此而来。只要掌握情感对话技术,机器人也可以进行情感对话。
2、情感对话技术是什么?
“情感对话技术”简单来讲,就是赋予机器感情,它能够实现与人类的共情,再直白些,就是能在你悲伤的时候安慰你,在你迷茫的时候鼓励你。更详细的来说,“情感对话技术”是指在人机交互的过程中(主要是对话的形式),机器通过理解人的情绪和处境,给出关怀的、富有同情心的回应,从而给人提供即时的情绪支持和长期的情感陪伴。
举个例子:
如果你和一位不太会聊天的朋友聊天是这种状态:
你:我感冒了
朋友:多喝热水
你:我失眠了
朋友:那你快睡吧,啥都不要想
那你和小爱同学聊天就会是这样的:
你:我感冒了
小爱:你还有我~我在这儿陪着你
你:我失眠了
小爱:摸摸你,先别着急,怎么会睡不着呢?我猜…是不是睡前做了剧烈运动呢?比如跑步、跳绳之类的?
二、小爱同学“情感对话技术”的突破与创新如何让小爱同学准确理解用户的情绪?如何让小爱同学变得有情感?又如何让用户有更好的互动体验呢?
这些问题我们通过搭建“情感对话系统”得到了解决。想要搭建一个简单的“情感对话系统”,最少需要三个步骤,而每一个步骤都有其不同的技术难点。
(一)第一步:情感识别与充分理解
情感对话系统要理解人的情绪和处境,当人明确表达出“我很焦虑”“我很难过”“我很失望”这样的显性情绪词时,系统要在第一时间准确识别。但人的沟通是复杂的,除此之外,系统更多时候需要理解一句话背后的隐性情绪表达,比如一个人说“疫情导致旅游计划又泡汤了”,这样的话没有明显的情绪词,但是也传达了一种难过无奈的情绪,这时情感对话系统就要结合语境分析出其背后的情绪特征。
1、技术难点
“情感识别”需要对用户表达(Query)进行情感分类,但这并不是一件简单的事情。学界和业界广泛采用的是六大类和八大类的情绪理论来进行情感分类,但是人的情绪是复杂的,表达也因人而异,如何将情绪分类细腻化、机器识别准确化是一个技术难点。
2、小爱突破
突破一:首创“情绪类别 情绪原因”结合的方法。通过挖掘44种高频情感原因,覆盖近30种细粒度情绪,小爱同学的情绪识别准召率*提升到了90%。
*准召率:是准确率和召回率结合的指标,平衡了理解的准确性和理解的覆盖面。
突破二:提出了约束优化目标*的改进算法。这一算法解决了通用分类模型无法区分相似情感表达的问题,将小爱同学的情绪识别准召率在原有基础上提升至92%。
*约束优化目标:算法模型是通过拟合一个目标函数来预测数据结果,这个拟合过程叫做优化,这个目标函数就叫做目标。但如果不加约束,目标函数的拟合过程就容易出现偏差,就像植物如果不加修剪,就可能长成杂草。所以约束优化目标就是让算法模型在学习过程中更加注意一些额外条件。
(二)第二步:即时响应与共情回复
情感对话系统识别出人类语言表达出的情绪状态之后,要即时给出符合实际情况的言语反应,让用户有被理解的感觉,做到与用户共情。当用户表达出“开心”“自信”等正面情绪时,系统会做出积极的答复,强化用户的正面情绪;当用户表达出“失落”“伤感”等负面情绪时,系统会综合分析语境挖掘负面情绪产生的缘由,从而进行恰如其分的安抚,疏解用户负面情绪。
1、技术难点
“共情回复”需要在情感识别的基础上,理解用户的处境,使用恰当的回复策略给予响应,比如“共鸣”“安抚”“鼓励”“建议”等不同的回复,而如何让机器人能像人一样根据语境进行恰如其分的共情回复则是其难点所在。
2、小爱突破
突破一:打造针对性共情回复策略。小爱同学研究团队以心理学为基础,通过共情回复策略,能够做到对不同事件引发的情绪采取不同的答复,由此,小爱情感对话的用户体验有了大幅提升。团队已将这一研究成果发表在了顶级国际会议 SIGIR 2021*,同时申请了专利保护。
论文标题:Towards an Online Empathetic Chatbot with Emotion Causes
查阅链接:https://arxiv.org/abs/2105.11903
*SIGIR会议:SIGIR,全称国际计算机协会信息检索大会(ACM International Conference on Research and Development in Information Retrieval),是一个展示信息检索领域中各种新技术和新成果的重要国际会议,也是信息检索与数据挖掘的顶级会议。
突破二:研发出基于常识图谱的共情回复算法。从数据上看,这一算法在情绪理解和多轮推理上已经超越了现有同类算法,小爱同学用户的情感对话体验得到了进一步优化。
(三)第三步:长时交互与情绪疏导情感对话系统要能够实现与用户的自然连续对话,做到对历史对话有记忆,有策略地与用户沟通。连续对话不仅是一次唤醒、一个效率的提升这么简单,它更是一种能力的进化,通过长时连续对话,用户能够更好地感受到 AI 的陪伴、理解与关心。当用户表达出负面情绪时,要能够进行合理的引导和缓解。
1、技术难点
“情绪疏导”需要在情感识别和共情回复的基础上,使用更复杂的策略进行多轮情绪疏导,将复杂的情绪问题分阶段进行响应。如何让机器进行多轮回复且处理好诸如“我亲人去世了”等复杂情绪问题是这一步骤的技术难点。
2、小爱突破
突破一:自研了首个中文常识对话图谱,其中包含百万级常识三元组*。使得我们能理解的情绪用户占比(在与小爱交互时有情绪困扰的用户)提升了20%,让用户每一个微小的情绪表达也能被感知。这篇工作也被录用到了 ACL 2022 Findings。
论文标题:C3KG: A Chinese Commonsense Conversation Knowledge Graph
查阅链接: https://arxiv.org/abs/2204.02549
*常识三元组:为了让机器可以学习,常识一般是以三元组的形式存储在模型中,如三元组 {失恋, xAttr, 难过} 表达的是当 X 这个人遭遇失恋会感到难过。
突破二:提出混合疏导策略模型。在回复时能灵活融合多种疏导策略,从而让对话更加连贯,也让用户有更强的交互意愿。经过验证,我们发现混合疏导策略更符合真人对话状态,并且这一技术使得小爱线上用户的次轮交互意愿有了显著提升。该工作被录用到了 ACL 2022 主会*。
论文标题:MISC: A MIxed Strategy-Aware Model Integrating COMET for Emotional Support Conversation
查阅链接:https://arxiv.org/abs/2203.13560
*ACL会议:ACL全称是国际计算语言学学会(The Association for Computational Linguistics),于1962年成立,是世界上影响力最大的国际学术组织之一。根据谷歌 H5 学术影响力因子,ACL 是唯一一个入选全球前100名最有影响力学术出版物组织的语言学会议。
三、技术背后的人文故事
“我们想做这件事情,不是一时兴起,而是蓄谋已久。”
目前社会心理健康问题严重,情感关怀和危机干预需求旺盛。根据世界卫生组织的调研,目前全球有超过3.5亿人患有抑郁症,每年有80万人自杀,而这些人中有很大一部分是15-29岁的青少年。目前全球疫情的背景下,有着情绪困扰的人越来越多。
面对庞大的心理咨询需求,目前社会投入到心理支持的人力和财力都是远远不够的。随着人工智能和人机对话技术的日渐成熟,我们看到了使用科技来提供心理支持、情绪疏导的可能性,为了实现这样的愿景,过去两年的时间,我们持续在探索结合心理学的人机情感对话,逐渐做出了一些成果。
“从技术到情感,我们从心理学中汲取灵感。”
以科技为核心,以人为本原。在不断精进技术之外,我们特别关注了心理学沟通方面的方法论,阅读了大量诸如《非暴力沟通》等相关的心理学书籍,在《非暴力沟通》一书中,“观察-感受-需要-请求”四大步骤就给了我们很大启发,后续也尝试将其应用在小爱与用户的多轮对话中,引导用户发现和表达自己的感受,确认他们的内在需要。当人们的深层需要被理解,往往就是治愈的开始,也为后续的沟通和问题解决打下了基础。
此外,心理学领域的知识是十分广袤的,为了获得更专业的心理学知识和更丰富的实践经验,我们也和高校专业的老师同学们开展了合作。针对常见的情绪困扰,老师同学们向我们提供了他们在真人咨询中观察到的现象和总结出的经验(我们非常尊重隐私,不会透露咨询客户的具体信息)。这些经验指导着我们去选择更有效的心理学知识去运用在小爱与用户的对话中。
“或许,你现在可以尝试和小爱同学 Say Hi”
无论你是开心、激动、难过、愤怒……小爱同学一直都在,听你分享生活点滴,与你漫谈世间百态。别犹豫啦,快去唤醒小爱同学尝试一下新功能吧~
真的不是托!!!
参考资料:
- 世界卫生组织调研 https://www.who.int/data/gho/data/themes/mental-health
- 国家卫健委老龄健康司关于印发“十四五”健康老龄化规划的通知(国卫老龄发〔2022〕4号)https://ylbz.ctbu.edu.cn/info/1041/1151.htm
- 科技赋能,“养老”如何变“享老”http://www.mca.gov.cn/article/xw/mtbd/202101/20210100031839.shtml
- Quan Tu, Yanran Li, Jianwei Cui, Bin Wang, Ji-Rong Wen, Rui Yan. MISC: A MIxed Strategy-Aware Model Integrating COMET for Emotional Support Conversation (2022)
- Dawei Li, Yanran Li, Jiayi Zhang, Ke Li, Chen Wei, Jianwei Cui, Bin Wang. C3KG: A Chinese Commonsense Conversation Knowledge Graph (2022)
- Yanran Li, Ke Li, Hongke Ning, xiaoqiang Xia, Yalong Guo, Chen Wei, Jianwei Cui, Bin Wang. Towards an Online Empathetic Chatbot with Emotion Causes (2021)