去混响技术总结

时间：2022-05-23 来源：原创人气：2919

混响（reverberation）是相对封闭空间如房间中，产生的一种典型声学现象。声波在房间中传播时，遇到墙面、地面、天花板或其他物体表面时，会被阻碍并反射回来，反射声波在传播过程中再次遇到障碍物时，会形成二次反射，如此反复。在传播以及反射的过程中，声波不断被壁面吸收会慢慢衰减。声波在各个方向来回反射，而又逐渐衰减的现象称为混响。
对于房间中的人来说，从声源处直接到达人耳的声波叫直达声，而经过壁面一次或多次反射到人耳的声波，听起来像是直达声的延续，叫做混响声。

下面两段音轨，左边的是在消声室中录制的直达声信号，没有混响；右边模拟房间环境处理后得到的有混响的信号；混响声听起来像是无混响声的延续和拖尾。

混响时间是度量房间内混响程度的基本指标之一。混响时间用来描述房间内声音衰减快慢的程度。它的定义为：声源停止后声音在房间内较初始声压级衰减60dB所经过的时间，一般用T60表示。计算混响时间有一个有名的公式，叫“塞宾公式”，定义如下：

其中，V为房间体积，S为房间的表面积，

为平均吸声系数。一般的，房间越大，室内越空旷，混响时间会越长。因此，像银行营业大厅、金库，这种空间较大、壁面光滑的空间里，混响时间明显较长。
混响的作用：
合适的混响时间，对于房间的听音效果有重要的作用，能使人声听起来丰满立体，有空间感。混响时间太短，声音听起来会干涩、空旷、不饱满。过长的混响时间会使人感到声音浑浊不清。一般房间的混响时间在1s以内较为合适。
对于音频监控来说，房间混响往往是清晰拾音的一个重要挑战。当人距离拾音设备较远时，直达声和混响声的比值较小，即使声音较大，在一般的混响环境中，仍然较难听清楚。实际的音频监控场所中，如银行营业大厅、中型会议室等，往往未做声学处理，混响时间较长，要在这样的场合里，远场清晰的拾取声音，仍然存在比较大的困难。
混响除影响拾音的音质外，也明显的影响自动语音识别（ASR）的识别率。如上面的语谱图所示，没有混响的语音，其声纹清晰可辨，而有混响的语音，声纹模糊不清。因此，如何消除录音中的混响，也是提高语音识别率需要解决的问题。
去混响技术

混响影响拾音音质和语音识别率，因此需要从拾音信号中去除混响声，这种技术就是去混响技术。一般去混响主要有三种技术：第一种方法，麦克风拾取的信号可以看作声源信号与房间冲击响应的卷积生成的信号，通过这种数学模型来消除混响，在估计房间声学模型参数之后，形成对原始信号的估计。第二种方法，通过将混响视为一种噪声，通过适用于混响的降噪过程来抑制混响，事实上，一般的语音降噪算法都具有一定的去混响效果；第三种方法，采用深度学习的方法去混响，经过神经网络后，得到频域的滤波系数。混响信号经过滤波后，输出去混响信号。这样的网络经过大量数据训练后，用于去混响处理，就能得到较清晰的信号。