世界第一个3D多语言AI新闻记者诞生了!
最近,字节跳动AI Lab与上海交大研究团队合作,发布了新的升级版AI新闻记者小明博托。 小明博最早诞生于2016年,2017年获得吴文俊人工智能技术发明奖。 (吴文俊奖被誉为中国智能科技最高奖,代表着中国人工智能领域的最高荣誉。
据悉,此次最新版的小明bot除了新闻制作的基本功能外,还被赋予了3D动画图像,可以配合文本内容完成多种语言的新闻广播任务。
晓明博特
3D多功能记者Xiaomingbot
研究人员表示,晓明bot软件系统包括新闻生成器、翻译机、跨语种阅读器和头像视频,可以独立完成整个新闻报道工作流程。 接下来,让我们在大型体育赛事的demo视频中,看看小明bot的业务能力吧?
首先是新闻报道的基本任务——写作。 可以看出,小明bot的文本生成基本上与比赛的进行同步进行。 如果比赛中出现了进球等特殊的比赛点,小明会自动抓住信息转换为对应的文本内容。 如图所示:
左侧是比赛录像,右侧是生成的新闻
选手Chadli成功进球后获得1分,小明bot实时生成文本:
第90分钟,axdhb(NacerChadli )抓住机会,为比利时拿下1分,目前比分3-2。
好好专业的现场解说员。 除此之外,小明bot还可以根据数据推理比赛结果,并附上相应的图片。
比利时和日本赢了3:2
2018年世界杯第16轮比赛中,比利时和日本对战于7月3日凌晨2点。 比利时选手Jan vertonghen、Nacer Chadli、Marouane Fellaini Bakkioui各进一球取得一分,日本选手Genki Haraguchi和Takashi Inui各进一球,最终
研究人员表示,小明博对比赛得分、股价变化、收益增减等数据十分敏感,因此非常擅长体育赛事和财经新闻领域的写作。
其次是多语言翻译功能。 Xiongmingbot可以针对同一条新闻生成多种语言形式,并向全球用户提供新闻报道。
葡萄牙语、中文和日语
最重要的是,这些不同语言的文本内容可以在3D动画中实时地以声音播放。 其头、唇能够配合文本内容同步工作,整体效果逼真自然。
目前,小明博在媒体平台上开设了胡子芳香全球、胡子芳香财经等多家社交网站,已超过60万页,吸引了15万多名关注者。 那个新闻报道的专业性似乎还得到了广泛的承认。
背后的实现原理
这篇论文已经公开了。 通过论文中完整的工作流程图,小明bot首先基于比赛视频,输出完整的文本信息,并据此提取最重要最相关的内容,形成文本摘要,将文本内容从机器翻译、文本到语音的转换和化身
完整的样品
从Xiongmingbot的系统体系结构来看,这些功能主要由四个模块实现。 接下来,我们将简要介绍与这些阶段相关的模型以及它们如何工作。
小明博托系统体系结构
新闻生成:由数据到文本的转换和文本的总结两个环节构成
如前所述,Xiongmingbot擅长数据的监测和捕获。 为了将数据转换为文本,论文采用了基于table2text技术的模板转换的方法。
研究人员针对比赛阶段、类型等多个维度设计了不同类型的模板。 这些模板通常包含时间、得分、犯规、选手、球队名称和其他许多指标。 小机器人系统根据文本的需要选择相应的模板类型并将其转换为文本。
除
去数据部分,Xiongmingbot还需要基于句子完成文本提取和抽象总结两项任务。在这里,研究人员训练了两个汇总模型。一种是基于BERT的常规文本摘要模型。采用了TTNews数据集进行训练,其包括了50,000份带有人工书面摘要的中文文件。另外一种是针对诸如足球等体育赛事而训练出的特殊模型。该模型能够考虑足球比赛结构,以不同方式处理诸如犯规等重要事件,更好地总结比赛报告。新闻翻译:采用基于Transformer架构的机器模型实时翻译。
在这里,研究人员预先训练了多个神经机器翻译模型,并采用了最先进的Transformer Big Model作为NMT(Neural Machine Translation Systerm)组件。
另外,为了加快翻译速度,还创建了基于CUDA(Compute Unified Device Architecture)的NMT系统,CUDA是由NVIDIA推出的通用并行计算架构,它比Transformer架构的推理速度还要快10倍。
该模型的所使用的训练数据集同样非常庞大,中英转化的数据集包含了一亿个并行的句子对,中日文包含了6000万个并行句子对。
新闻读取:采用文本到语音(TTS)合成模型,实现跨语言输出。
研究人员所使用的TTS合成模型,只需要一种语言的少量语音作为训练数据。如中文语言处理,仅包含数百名发言人的语音。另外,该TTS模型具有跨语言的语音克隆机制,可以简单理解为,它可以以与我们之前提供的完全相同的声音以不同的语言实现新闻播报。
头像动画:同步唇部与语音输出动作,并完成3D渲染
Xiaomingbot可以生成与TTS模型输出音频的同步嘴唇动作,并渲染头发,衣服等。对于嘴唇动作,研究人员采用的是序列-序列模型(Seq2Seq)。该模型的输入序列是从TTS模型中提取的音素和相应的持续时间,而输出序列则是口型权重(嘴唇运动所产生的动画参数)。通过这些不同的口型权重,Xiaomingbot可以做出许多不同的面部表情。对于眼部、头发及皮肤的渲染,采用了3D渲染引擎Unity和不同的算法。
最后,研究人员表示,Xiaomingbot系统目前只是建构多功能AI系统的首次尝试。其在文本生成、讲话、表达等方面还有很大的局限性和进步空间。未来我们将会从可扩展的工作领域和对话交互能力两个方向进行改进和提升。
最后为大家奉上Xiaomingbot体育赛事报道的完整视频:
引用链接:雷锋网雷锋网雷锋网
论文地址:https://arxiv.org/pdf/2007.08005.pdf
https://syncedreview.com/2020/07/21/meet-bytedance-ais-xiaomingbot-worlds-first-multilingual-and-multimodal-ai-news-agent/