小语种标注是干什么的,大一英语语音知识点

昨天，我发布了一次关于语音数据标记工具Praat的基本使用，后台收到了很多伙伴的消息。因为想知道更多关于语音的知识，也想深入学习，所以今天继续写关于语音的基础知识。无论是数据标注还是刚了解语音相关AI技术的伙伴都是必须要知道的知识点。

一.几个重要的概念

1.采样

由于声音是模拟连续信号，计算机只能处理数字离散信号，所以计算机分析处理声音的过程是将模拟连续信号转换为数字离散信号的模数转换过程采样是指以一定的时间间隔从模拟连续信号中提取一定数量的采样。其样本值实际上由将模拟声音信号转换为数字离散信号的二值代码0和1表示。

2.采样率

采样率表示每秒对原始信号进行采样的次数。显然，每秒采样的点越多，获得的信息就越丰富。为了恢复波形，每次振动至少需要两个采样点。采样频率至少设定为语音频率的两倍，以避免收集到的信号失真。因此，要获得10000赫兹的声音，采样率必须至少超过20000赫兹。采样率越高，数字信号的保真度越高，但同时消耗的存储容量越大。采样率小于音频频率的2倍时，会发生低频失真、混信现象。

3.采样精度

采样精度是指用于存储一个采样值的位数。在以8比特(采样精度8比特)存储一个采样值的情况下，关于声音振幅的分辨率水平理论上为256个，即0到255；在以16位(采样精度16位)存储采样值的情况下，针对声音振幅的分辨率水平理论上为65536个，即从0到65536。如果采样精度设置为16位，则计算机记录的采样值范围为- 32768到32767之间的整数。

采样率和采样精度越高，记录的波形越接近原始信号，但同时消耗的内存容量也越大。

4.声道

通道是指输入输出信号的通道。通常在多通道中输入或输出不同的信号。只录制一个位置的一种信号时，使用单声道就可以了。

5.信噪比

信噪比是指信号和噪声之间的能量比。录音的信噪比越高越好。 16位采样率的信噪比约为96dB，8位采样率的信噪比约为48dB。作为在录音时简单地推定噪声的大小的方法，在未输入声音信号的情况下，若从麦克风输入的信号振幅值超过200 (单位为采样值，相当于46dB )，则噪声变大，在安静的环境下录音时，为窗户、空调、电风扇等由于需要一定控制，所以选择带屏蔽的麦克风的噪声的振幅值越低越好，工作室中的录音一般能够抑制在10以下(以下)

注：采样率和采样精度设置越高越好，采样率和采样精度越高声音质量越好，但考虑到存储空间和音频信号的特点，通常可以设置为16000赫兹的采样率和16位的采样精度如果需要录制两个不同的信号源，请使用立体声，否则使用单声道。

二.声学的几个基础概念

物体振动时，引起周围空气的波动，空气粒子间的距离疏密变化，空气压力发生变化，通过人耳膜反映到空气压力上，传递到大脑，形成声音。物理上，声音有四个基本特征：音色、声音强度、音高和音长。

1.声波

声波是由物体的振动产生的。物体的振动会导致周围的介子(空气等)产生波动。这就是声波。声波最简单的形式是正弦波，从正弦波中获得的声音变成纯音。在日常生活中，人们听到的不是大部分纯音，而是复合音，这是由多种不同频率和振幅的正弦波叠加而成。

2.声速

声波每秒在介子中传播的距离称为“声速”，用c表示，单位为m/s。声速与传播声音的介子和温度有关。在常温常压的空气中，声速(c )与温度(t)的关系简称c331.4 ) 0.607t ) m/s )。常温下声速为345m/s。

3.波长

沿着声波的传播方向，声波振动一周后传播的距离，或者波形上相位相同的相邻两点的距离称为"波长"，用表示，单位为m。波长与生物体的振动频率成反比。频率越高波长越短。日常所说的长波是指频率较低的声音，短波是指频率较高的声音。波长、声速、频率三者的关系=c/f。

4.振幅

振动物体距平衡位置的最大距离称为振动的“振幅”，通常用符号a表示。简的共振运动的振幅不变。强迫振动稳定阶段的振幅也是常数。阻尼振动振幅

逐渐减小，振幅是可变化的。振幅是用来表示振动强弱的物理量，振幅大，则振动强度大；振幅小，则振动强度小。

5.分贝

分贝是增益或衰减单位，用来描述两个相同物理量之间的相对关系。声信号和电信号的相对强弱，例如声压和电压、声功率和电功率放大（增益）和减小（衰减）的量都可用分贝数来表示。

计算公式如下：

LN = 10 * lg(A1 / Ar) 或 LN = 20 * lg(A1 / Ar)

公式中，其中Ar是基准量，Al是被测量，分贝符号为“dB”。被测量和基准量之比取以10为低的对数，这对数值称为被测量的“级”，它代表被测量比基准量高出多少“级”。根据公式可以得出，若被测量是基准量的10倍，则被测量比基准量高出1级，如被测量是基准量的100倍，则被测量比基准量高出2级，以此类推。每一级相差10或者20个dB。

分贝的计算很简单，对于振幅类物理量，如声压、电压、电流强度等，将被测量与基准量相比后求常用对数再乘以20；对于它们的平方项的物理量如电功率、声功率和声强，取对数后乘以10就行了。如果需要表示的量小于与相比的量时（即比值小于1时），则dB数前要加一个负号。

三.语音AI领域的主要方向

1.TTS（Text-to-Speech，语音合成），即“从文本到语音”，是人机对话的一部分，让机器能够说话。

2.ASR（Automatic Speech Recognition，语音识别），是将声音转换为文字。

以上两个概念呢，大家可以自行百度一下有非常详细的介绍，在这里就不复制粘贴啦。在TTS中最主要的一个指标就是自然度，也就是清爽的唇膏听见机器跟你说话的时候，你能不能区分出来这个不是人，目前在很多电话机器人上的使用很广泛，而且几乎已经判断不出来是机器人在对话（当然从其他方面还是很容易区分出来的）。而在ASR部分就比较难了，特别是在中文领域的应用，难上加难啊，必经中文还是博大精深的啊。当然应该也是发展非常有机会的一个方向，当然要结合NLP来进行应用才能发挥出真正的威力，否则还是基于简单规则的就没什么意思了。

本文着重介绍了一下语音相关最基础的知识点，我个人认为这是做语音数据标注或者语音采集的最基础的知识了，也是必须要掌握的，希望可以对大家在今后的工作学习当中能有好的帮助。