人工智能语音技术是怎样实现的,如何实现人工智能语音

语音数据指标解读

一、语音数据类型

按照话语的自然程度分类：

朗读式语音对话式语音

按照信号频宽角度分类

手机信道语音电话信道语音桌面语音（高保真麦克风或阵列）

按照应用角度分类

基础识别数据
基础语音识别能力的训练数据可分为：朗读语音、自然对话、引导语音、噪音环境、情感语音、声纹识别等六大类语音数据。

智能家居数据
3000小时中国儿童语音数据
797人低幼儿童中文语音数据
220人美国儿童麦克风采集语音数据
1044小时闽南语手机采集语音数据
1032小时上海方言手机采集语音数据
1000小时昆明方言手机采集语音数据
……

智能车载数据
531小时麦克风手机采集车载噪音数据
245小时车载环境普通话手机采集语音数据
1,030小时中英混读手机采集语音数据
……

智能手机数据
3125小时语音助手普通话实网采集语音数据
200人中文唤醒词手机语音采集数据
……

智能会议数据
1000小时普通话多人自然对话语音数据
800小时美式英语语音数据-交互场景
……

智能客服数据
2823小时普通话客服实网语音采集数据
555小时全领域客服实网语音采集数据
140小时电商客服普通话实网采集语音数据
……

二、语音数据制作要求

录音人的特征要求

性别：男女比例年龄分布方言区域分布特殊发音人语速发音方式

质量要求

数据结构的完整性数据量的完整性语音的合格率标注的合格率

三、语音采集
①录音文本：

内容覆盖：录音文本的选择要尽量贴合客户应用场景数据堂语音数据的录音文本设计很有优势。例如：通用类、交互类、家居命令类、车载命令类、数字类句子重复率：句子重复率越低越好，国内客户大多希望重复最多3次，国外客户容忍度高些数据堂语音数据，大部分都是重复小于3次

②录音设备：

固定电话：办公电话、家庭电话手机（通信设备）：安卓系统、苹果系统手机录音笔：手持式、非手持式高保真麦克风：外接声卡、内置声卡其他移动设备：智能语音录音设备

③录音环境：
安静室内、家居、车载、街景、车站、工厂
•通常的相对安静采集环境：不能有明显回音、不能有其他人说话声、没有电流声、没有持续噪音（空调声等）。
噪音DB值：
量化环境噪音的强度，可以用声压计测量。业内通常要求不超过40-50DB，我们18年开始做的数据基本都在40DB以内
信噪比：
量化说话人音量比环境噪音音量高出多少。业内通常要求大于10-20DB，我们的数据符合

④录音数据格式：
采样率：16KHz、22KHz、44.1KHz、48KHz
量化位数：8bit、16bit、32bit
声道：单双声道

•不同设备通常采集的格式不同：
采集设备：
手机：16KHz、16bit （不同手机的降噪性能不同）
电话：8KHz、16bit
高保真麦克风或麦克风阵列：44.1KHz48KHz、16bit32bit
存储格式：WAV（录音时用的标准的WINDOWS文件格式）

⑤录音人注意事项
1.性别比例：通常要均衡，男女1:1最佳，可以有5%-10%的波动误差
2. 地域比例：覆盖越广越好（中国是七大方言区，按人数比例分布）
3.年龄比例：通常是18-25岁年轻人为主，但中年人也要有一定比例覆盖
4.语音时长：交付客户时，一个录音人的语音时长最佳在30分钟左右，不超过1小时为宜。

⑥合格指标

⑥错误样例
1.音量大小、听不清（语速过快、发音不清）
3. 截幅：声音信号经音频设备重放后多出来的额外的谐波成分.(模拟截幅、数字截幅）
4. 失帧、丢帧（模拟到数字信号后丢失数据信息）
5. 噪音、语音内容中有第二发话人出现
5.变声
6.喷麦
6. 语义不通
7. 重复音、磕巴音导致标注错误

四、语音标注
1、标注类型
• 标注的内容分类
必需项：
语音打点：按句切分，每句保留一定静音段；文字转写；对多人对话语音，还需区分说话人
可选项：噪音标注；拼音标注

2、标注要求
语音打点：

•判断语音是否有效

※ 判断是否为有效或无效语音的原则：

如果一段语音声音极小，小到几乎听不到，则标注为无效。如果一段语音中只含有噪声或者静音（视为无声音），则标注为无效。如果只有“嗯”、“啊”、“哇噻”、“喂”等再无其他内容，则标注为无效。一句话有听不清楚的部分，不能判断内容，转写不出全部正确结果的情况下，则标注为无效。

•语音内容转写标注
※ 数据转写标注人员根据所听到的音频写出内容，力求使文本内容与音频发音内容保持一致。
一般准则：

1.标注内容的完整性要与实际发音一致，不能多字、少字、错字。
◎ 口语不流利时会出现重复、修正、断续、犹豫的现象，统一按照实际发音情况进行转写。
例如：“我是北北京人”“那个那个有没有”
◎口语快速发音时会出现吞音、错音、变音的现象，错音和变音需要按照上下文语义判断正确转写内容。例如：“政府”发音为“正负”，根据语义判断后应该标注为“我要去政府街”。吞音现象为发音不明显，无法断定。标注的时候需要用“{}”符号辅助转写。例如：“走不走{啊}”，其中“啊”字不明显。儿化音同样采取和吞音现象的转写方法。例如：“这{儿}不错”，其中“儿”字不清晰。

2.音频中的阿拉伯数字要转写成汉字形式，如要写成“一二三”，而不是“123”。注意区分“一”和“幺”，“二”和“两”。

3.音频中有英文发音的应转写成相应的汉字或英文。具体分为以下几种情况：
◎ 网址中包含的所有的字母或单词，均为大写。例如：发音内容为”www.pp.com”, 应转写为“三W点PP点COM”。
◎ 发音中包含的英文单词，转写时全部为小写。
◎ 发音中包含的英文字母，转写时全部为大写。
◎ 对于一些专有名词，或者一些英文缩写，转写时全部为大写，例如：WTO、ERP等。

4.如发音清楚，但是语义不确定，比如普通人名等，可以选择同音字转写，但需要保证转写的读音正确。

5.关于添加空格注意事项：
◎ 空格只允许出现在英文单词之间。
◎ 英文字母、中文、中文和英文之间，均不能出现空格。

3、噪音符号解析
•噪音标注

采集环境噪音标注语音内噪音内容标注
•噪音内容标注项
[h]: 表示人的呼吸声
[k]: 表示人的咳嗽声
[x]: 表示人的笑声
[p]: 表示人的喷嚏声
[z]: 表示人的咂嘴声、喷麦声
[n]: 非人发出的声音，主要是一些偶然出现的噪声，例如:鼠标操作声音，敲击键盘的声音，汽车笛声等。

4、合格指标

按句计算合格率
※ 句准确率=正确的句子数/总句子数
注：一句话里有一个字错，也算该句错

按字计算合格率
※ 字准确率=正确的字数/总字数
业内要求：普通话朗读类通常要求句准确率96%-98%、普通话对话或客服类通常要求句准确率95%-97%、方言和外语通常要求句准确率95%

五、发音词典
1、发音词典作用

2、发音词典格式
发音词典和语种一一对应：一个语种只需要一个发音词典
发音词典里包含的词汇尽可能全，至少包含语音数据里的所有词
OOV：语音数据里有发音词典里没有的词
发音词典的规模通常是5-10万词
一个词对应一个或多个音标（一个词可能有多个音标）
音标通常是国际音标（IPA）或其他类似书写形式（中文通常用拼音表示）

3、发音词典样例

4、发音词典的商务策略
发音词典和语音数据是独立的两套数据
大部分客户会自己持续构建和扩充一个语种的发音词典
有些客户希望我们有发音词典，否则不买我们语音数据
建议：如果我们的发音词典没有或工期慢，可建议客户采购别家发音词典（如果客户担心别家发音词典词汇不全，可以把词表给我们，我们卖只有这些词的语音数据）

本文分享自：数据堂
网址：https://www.datatang.com/

人工智能语音技术是怎样实现的,如何实现人工智能 语音

人工智能语音技术是怎样实现的,如何实现人工智能语音