首页 > 编程知识 正文

音频信号转麦克风信号(音频信号处理)

时间:2023-05-03 12:46:36 阅读:83575 作者:2543

文章标题:西欧COK

随着人工智能和人们的生活越来越近,语音技术的发展也备受关注。 传统的近距离语音已不能满足人们的需求,人们希望能够在更远、更复杂的环境中对智能设备进行语音控制。 因此,阵列技术成为远程语音技术的核心。

阵列技术对人工智能的意义:

空间选择性:

可以通过电扫描阵列等空间定位技术获取声源的有效位置,智能设备获取准确的声源位置信息,因此可以使我们的声音更智能,通过算法获取高质量的声音信号质量,

麦克风阵列可以自动检测声源的位置,在跟踪说话者的同时,还可以获得跟踪多个声源和移动声源的优点,无论走到哪个位置智能设备都会用声音强调你的位置方向。

阵列麦克风增加空域处理,对多信号的时空频率三维处理弥补单一信号在噪声抑制、回声抑制、混响抑制、声源定位、语音分离方面的不足,使我们的智能设备在复杂的环境中也能获取高质量的语音信号,提供更好的智能语音体验

麦克风阵列技术的难点:

将传统的阵列信号处理技术直接应用于麦克风阵列处理系统常常没有效果。 因为麦克风阵列处理有不同的处理特性。

阵列模型的建立

麦克风主要应用于处理语音信号,由于拾音范围有限,且多用于近场模型,常规的阵列处理方法,如雷达、声纳等平面波远场模型已不适用。 在近场模型中,需要更准确的球面波,需要考虑传播路径不同导致的振幅衰减的不同。

宽带信号处理

通常的阵列信号处理多为窄带,即不同阵列元素的接收延迟和相位差主要表现在载波频率上,而语音信号没有调制和载波,且与低频相比较大,不同阵列元素的相位延迟与声源自身的特性较大

非平稳信号处理

在现有阵列处理中,稳定信号多,但麦克风阵列的处理信号多为非稳定信号或短时间稳定信号,所以麦克风阵列一般对信号进行短时域处理,按每个频域对应相位差,将宽带信号在频域分割为多个子带

混响

声音的传播受空间的影响很大,由于空间的反射、衍射,麦克风接收的信号除了直接信号以外还叠加了多径信号,信号受到干扰,即混响。 在室内环境中,由于房间的边界和障碍物的衍射、反射,声音会持续,极大地影响声音的理解度。

声源定位

声源定位技术广泛应用于人工智能领域,使用麦克风阵列形成空间笛卡尔坐标系,基于不同的线性阵列、平面阵列和空间阵列,确定声源在空间中的位置。 智能设备首先可以进一步用声音强调声源的位置。 智能设备获取你的位置信息后,可以与其他传感器合作,获得更智能的体验。 例如,机器人会听到你的召唤来到你身边,视频设备会聚焦锁定说话人。 在理解声源定位技术之前,需要了解近场模型和远场模型。

近场模型和远场模型

通常,麦克风阵列的距离为1~3m,阵列位于近场模型中,麦克风阵列受到的是球面波而不是平面波。 声波在传播过程中衰减,但衰减因子与传播距离成正比,因此声波从声源到达阵列源时的宽度也各不相同。 另一方面,远场模型中,声源到阵元的距离差比较小,可以忽略不计。 通常,我们将2L/定义为远近场阈值,将l定义为阵列孔径,将定义为声波波长,所以阵列元件的接收信号中不仅有相位延迟,也有振幅衰减。

声源定位技术

声源定位的方法包括波束形成、超分辨率频谱估计和TDOA,分别将声源与阵列之间的关系转换为空间波束、空间频谱和到达时间差,并通过相应的信息进行定位。

电扫阵列

阵列形成的波束在空间上进行扫描,根据角度的不同抑制也不同,从而判断方向。 通过控制各阵列要素的权重系数来控制阵列的输出指向,进行扫描。 系统扫描到输出信号功率最大时对应的波束方向是被认为是声源的DOA方向,可以进行声源定位。 扫描阵列的方式有一定的局限性,仅适用于单一声源。 如果是多声的话

源在阵列方向图的同一主波束内,则无法区分。而这种定位精度和阵列宽度有关—在指定频率下,波束宽度和阵列孔径成反比,所以大孔径的麦克风阵列在很多场合的硬件上很难实现。

超分辨谱估计

如MUSIC,ESPRIT等,对其协方差矩阵(相关矩阵)进行特征分解,构造空间谱,关于方向的频谱,谱峰对应的方向即为声源方向。适合多个声源的情况,且声源的分辨率与阵列尺寸无关,突破了物理限制,因此成为超分辨谱方案。这类方法可以拓展到宽带处理,但是对误差十分敏感,如麦克风单体误差,通道误差,适合远场模型,矩阵运算量巨大。

TDOA:

TDOA是先后估计声源到达不同麦克风的时延差,通过时延来计算距离差,再利用距离差和麦克风阵列的空间几何位置来确定声源的位置。分为TDOA估计和TDOA定位两步:

1. TDOA估计

常用的有广义互相关GCC,Generalized Cross Correlation和LMS自适应滤波

广义互相关

基于TDOA的声源定位方法中,主要用GCC来进行延时估计。GCC计算方法简单,延时小,跟踪能力好,适用于实时的应用中,在中等嘈杂强度和低混响噪声情况下性能较好,在嘈杂非稳态噪声环境下定位精度会下降。

LMS自适应滤波

在收敛的状态下给出TDOA的估值,不需要噪声和信号的先验信息,但是对混响较为敏感。该方法将两个麦克风信号作为目标信号和输入信号,用输入信号去逼近目标信号,通过调整滤波器系数得到TDOA。

2. TDOA定位

TDOA估值进行声源定位,三颗麦克风阵列可以确定空间声源位置,增加麦克风会增高数据精度。定位的方法有MLE最大似然估计,最小方差,球形差值和线性相交等。TDOA相对来讲应用广泛,定位精度高,且计算量最小,实时性好,可用于实时跟踪,在目前大部分的智能定位产品中均采用TDOA技术做为定位技术。

波束形成:

波束形成可分为常规的波束形成CBF,Conventional Beam Forming和自适应波束形成ABF,Adaptive Beam Forming。

CBF是最简单的非自适应波束形成,对各个麦克风的输出进行加权求和得到波束,在CBF中,各个通道的权值是固定的,作用是抑制阵列方向图的旁瓣电平,以滤除旁瓣区域的干扰和噪声。ABF在CBF的基础之上,对干扰和噪声进行空域自适应滤波。ABF中,采用不同的滤波器得到不同的算法,即不同通道的幅度加权值是根据某种最优准则进行调整和优化。如LMS,LS,最冷静的微笑,LCMV(线性约束最小方差,linearly constrained Minimum Variance)。

采用LCMV准则得到的是MVDR波束形成器(最小方差无畸变响应,Minimum Variance Distortionless Response)。LCMV的准则是在保证方向图主瓣增益保持不变的情况下,使阵列的输出功率最小,表明阵列输出的干扰加噪声功率最小,也可以理解为是最迅速的唇彩准则,从而能最大可能的接收信号和抑制噪声和干扰。

CBF-传统的波束形成

延时求和的波束形成方法用于语音增强,对麦克风的接收信号进行延时,补偿声源到每个麦克风的时间差,使得各路输出信号在某一个方向同相,使得该方向的入射信号得到最大的增益,使得主波束内有最大输出功率的方向。形成了空域滤波,使得阵列具有方向选择性。

CBF + Adaptive Filter 增强型波束形成

结合Weiner滤波来改善语音增强的效果,带噪语音经过Weiner滤波得到基于LMS准则的纯净语音信号。而滤波器系数可以不断更新迭代,与传统的CBF相比,可以更有效的去除非稳态噪声。

ABF-自适应波束形成

GSLC是一种基于ANC主动噪声对消的方法,带噪信号同时通过主通道和辅助通道,而辅助通道的阻塞矩阵将语音信号滤除,得到仅包含多通道噪声的参考信号、各通道根据噪声信号得到一个最优信号估计,得到纯净语音信号估计。

阵列技术未来发展:

麦克风阵列技术相对于单麦克风系统有很多优点,已成为语音增强及语音信号处理的重要部分。

语音增强和声源定位已经成为阵列技术中不可缺少的部分,在视频会议,智能机器人,助听器,智能家电,通信,智能玩具,车载领域都需要声源定位和语音增强。各种信号处理技术,阵列信号处理技术都陆续结合到麦克风阵列的语音处理系统当中,并逐渐得到算法改进和进一步的广泛应用。

在复杂的噪声环境,混响环境,声学环境下,强大的硬件处理能力也使得复杂算法实时处理语音增强成为了可能。

在未来,语音和图像的紧密结合会成为人工智能领域的新的突破口,在人工智能的风口浪尖,是谁能将语音识别,语音理解,阵列信号处理,远场语音,图像识别,人脸识别,虹膜识别,声纹识别的技术巧妙并有机的结合在一起,并将技术的本质和与人为本的宗旨完美的结合,让我们拭目以待。

文章来自公众号:西欧克 COK

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。