固话信道下语音特征参数影响研究
   来源:现代电子技术     2021年01月25日 03:13

语音特征参数MFCC提取过程详解

郭逾等

摘 要: 通过对比麦克风与固话信道下语音信号的时域、频域参数,结合固话传输系统的特性,分析语音信号经过固话信道传输后,各参数的异同点以及固话信道对语音信号的影响。并采用[F]比的方法,分析麦克风信道和固话信道下语音信号MFCC特征参数的差异。实验结果表明,语音信号经过固话信道传输后,不仅造成信号的频率失真,还伴随有宽带噪声和共振型噪声。在MFCC特征参数方面,麦克风和固话信道的第二维MFCC参数差异最明显,低维参数相比高维参数差异较大,男性说话人特征参数相比女性说话人差异较大。

关键词: 固话信道; 噪声; 语音参数; Mel频率倒谱系数; [F]比

中图分类号: TN916?34 文献标识码: A 文章编号: 1004?373X(2015)11?0073?06

Influence of fixed telephone channel on voice feature parameters

GUO Yu, ZHANG Er?hua, LIU Chi, YANG Zi?fan

(School of Computer Science and Engineering, Nanjing University of Science and Technology, Nanjing 210094, China)

Abstract: By comparing time?domain and frequency?domain parameters of voice signal in microphone channel and fixed telephone channel, the influence of parameter similarities, differences and fixed telephone channel on voice signal are analyzed in combination with the characteristics of the fixed telephone transmission system after the voice signal is transmitted through the fixed telephone channel. The difference of voice signal MFCC characteristic parameters in microphone channel and fixed telephone channel is analyzed with the method of F?ratio. The experimental results show that the frequency distortion of voice signal, accompanying with wide?band noise and resonance noise, occurs after the voice signal is transmitted in the fixed telephone channel. In the aspect of MFCC characteristic parameters, the most obvious difference is the second dimensional MFCC parameter in microphone channel and fixed telephone channel, the difference in lower dimension is greater than that in higher dimension, and the difference of characteristic parameter in male speakers is greater than that of female speakers.

Keywords: fixed telephone channel; noise; voice parameter; Mel?frequency cepstrum coefficient; F?ratio

0 引 言

近年来,随着说话人识别技术的不断发展,说话人识别在干净语音环境下取得了较好的识别性能。但在信道失配条件下,由于信道的卷积噪声以及传输信道本身特性的原因,对原始语音信号产生了较大的影响,从而降低了说话人识别系统的性能。针对信道失配问题,目前已经有一些处理方法,例如针对特征域的倒谱均值归一(CMN)、RASTA滤波;针对得分域的Z?score、T?score方法;模型域的联合因子分析(JA)[1?2]等,这些方法在实际应用中都取得了较好的效果。但是针对信道本身的研究较为少见,信道本身的特性、语音信号通过信道传输后产生何种畸变、语音特征参数对信道传输的敏感度等问题,都需要进一步探索。

本文首先介绍了固定电话的工作原理、固话噪声的来源和信号失真的原因,其次将麦克风信道语音和固话信道语音的时域和频域参数进行对比,然后针对MEL频率倒谱系数(MFCC)进行研究分析,并采用F比的方法,对麦克风信道和固话信道下MFCC各维分量进行比较,研究语音信号经过固话系统传输后,对信号参数产生的影响。

1 固定电话工作原理及噪声类型

1.1 固定电话系统构成

信号源在固定电话系统中经过了复杂的传输过程。固定电话传输系统如图1所示,说话人发出的语音信号在电话机送话器处完成声/电转换形成模拟信号,模拟信号经过电话用户线传输到交换机,在交换机处完成编码(如有长距离传输将会进行光缆调制),形成数字信号,数字信号经过传输信道(光缆或同轴电缆)传输后进入另一交换机,在交换机处完成译码,数字信号转换为模拟信号,再通过电话用户线将模拟信号传输到电话机,在电话机受话器完成电/声转换,最后传入接收人耳中。

1.2 信号失真及噪声产生原因

固话传输系统产生的失真和噪声类型主要包括频率失真、非线性失真、量化失真以及传输线路噪声[3]。

(1) 频率失真

考虑到人的听觉系统和信道传输的特点,电话机在发送端和接收端有不同频响的传输特性,从而产生频率失真。如图2(a)、图2(b)所示。

(2) 非线性失真

由于送(受)话器质量不佳、发送端(接收端)放大器的馈电电压不够或工作点选择不当、自动增益控制电路设计不佳等问题,将会导致最终接收到的语音信号产生非线性失真,直接导致输出信号产生新的频率成分。

(3) 量化噪声

通过声/电转换后的模拟信号在交换机处将要进行信源编码和信道编码,以适应光缆或同轴电缆传输。其中,在进行信源编码时,我国对固话语音信号采用A律13折线量化标准,这是一种非均匀量化方式,它存在一定的量化误差[4]。

最大相对量化误差公式为:

[12 ? ΔμXSamples] (1)

式中:[Δμ]为量化间隔;[XSamples]为采样值。

信源编码输出功率信噪比为:

[SNq=22(BfH)] (2)

式中:[B]为系统带宽;[fH]为信号截止频率。

(4) 传输线路噪声

信号在线路中传输,容易受到外界噪声的干扰,包括由电火花引起的脉冲噪声、相邻电台或电子设备引起的窄带噪声、一些电阻性元器件引起的热噪声等。传输线路主要包括连接用户电话机与交换机的电话用户线,以及连接交换机的光缆或同轴电缆。由于目前数字信号在光缆中传输几乎可以达到无损的状态,传输线路噪声主要在电话用户线上产生。

录音过程中接收端电话用户线受到相邻电子设备影响,引起的噪声如图3所示。

图3 典型传输线路噪声

2 语音基本参数比较

2.1 语音数据库

实验所采用的语音数据为课题组实验室录制,录音过程中,麦克风与固定电话同时录音。语音库包含400名说话人,其中男性200人,女性200人。

录音内容包括3段数字语音和4段文本语音,数字语音包含0~9共10个孤立的阿拉伯数字,文本T1共计392个汉字,文本T2共计231个汉字,文本T3共计289个汉字,文本T4共计680个汉字。

采样频率为16 000 Hz,16 b量化。

2.2 预处理

在进行实验之前,对语音数据进行预处理,预处理包括预加重、分帧和加窗。

预加重滤波器为:

[H(z)=1-αz-1] (3)

式中[α]取值为0.95。

分帧帧长为512点,约32 ms,帧移为256点。窗函数选用hamming窗,函数表达式如下:

[W(n)=0.54-0.46cos2πn(L-1),0≤n≤L-10,other ] (4)

2.3 语音无声段

语音的无声段基本可以认为只有噪声的存在。固话语音在无声段有“滋滋”的噪声,而麦克风语音的无声段保持静音。如图4(a)所示,为一段固话无声段的语音波形图,图4(b)为同时录制的一段麦克风无声段的语音波形图。

从图4中可以明显看出,固话无声段语音的波形振幅明显比麦克风大,这说明固话语音中存在较大的噪声。两者除了波形振幅有明显差别外,在固话语音信号中,还存在能量较高的间歇脉冲。

通过对固话噪声产生的原因以及噪声的性质进行分析,持续噪声的特性与宽带噪声相近,它可能来源于信道传输过程中产生的热噪声以及信源编码过程中产生的量化噪声。

短时脉冲噪声的来源比较复杂,可能来自于电话用户线的干扰或电话机声/电(电/声)转换器的影响。

固话语音信号中存在的噪声对信号产生的影响不仅体现在时域参数上,在倒谱域的影响也较为明显。通过对图4(a)中的固话无声段语音信号进行倒谱域研究分析,发现该信号的倒谱波形存在明显的峰值。

如图5(a)所示,在固话无声段的倒谱波形图上,存在明显的假峰值,而麦克风无声段的倒谱图中则没有峰值。通常情况下浊音信号的周期性激励能够形成倒谱峰值。说话人发清音或无声时,没有周期性激励,理论上不会出现峰值[5]。在固话无声段的倒谱波形中出现峰值,说明该语音信号中存在周期噪声。

经过大量的实验和观察,发现固话无声段的倒谱波形中普遍存在假峰值。噪声产生具体原因还需要进一步探索。

2.4 语音段

人在听觉上,对固话语音和麦克风语音存在一定的差异,主要原因是不同信道语音的音色不同。

根据声学理论,声音是由声带发出的一系列频率、振幅不同的振动复合而成,主要包括基音以及频率为基音整数倍的泛音。说话人的音色由泛音的多少以及泛音之间的相对强度决定,音色反映到频域即为说话人语音频谱曲线的包络[6]。

图6(a)为固话语音数字8(bā)的波形图,图6(b)上半部分为一帧固话语音,下半部分为一帧麦克风语音的对数谱波形图。语音帧对应的范围介入标线Star与End之间。

从图6中可以看出,麦克风语音和固话语音在频谱特征上也存在明显的差异。在3 500 Hz以上频段,固话语音的振幅较低,频谱曲线较为平坦,没有明显的峰值。在200~3 500 Hz频段,固话语音和麦克风语音频谱曲线的波峰位置几乎一致,特别是前7个谐波波峰,峰值明显且峰值对应频率一致。但是两者之间的相对强度不一致,从而导致频谱包络不一致,其他语音段也普遍存在这种现象。

造成麦克风语音和固话语音频谱曲线产生差异的原因在于固话传输系统在发送(接收)端的频率响应特征以及噪声的影响。各次谐波之间的相对强度不一致,直接影响语音的音色以及倒谱特征参数的可靠性。

3 语音特征参数比较

3.1 特征参数

Mel频率倒谱系数(Mel?Frequency Cepstral Coefficients,MFCC)是说话人识别中较为常用的特征参数。它是基于人耳听觉特性的特征参数,由于人耳对声音的感知与声音的频率并不是成线性关系,采用Mel频率更符合人耳的听觉特性。

Mel频率与实际频率之间基本成对数关系,可以用公式(5)表示:

[fmel=2 595log(1+f700)] (5)

其函数曲线如图7所示,可以看出在Mel频率和实际频率在1 000 Hz以下近似呈线性分布关系,在1 000 Hz以上接近对数分布关系。

图7 实际频率与Mel频率对应关系曲线

MFCC参数的计算过程如图8所示,具体步骤[7]为:

(1) 对原始语音信号进行预处理,包括预加重、分帧、加窗;

(2) 对分帧后的每帧信号做FFT运算,得到该每帧信号的幅度谱;

(3) 将线性频率尺度转化为Mel频率尺度,并在Mel频率轴上配置[L]个通道的三角滤波器组,取每个三角形滤波器频率带宽内所有信号的加权幅度谱作为某个带通滤波器的输出;

(4) 对每个滤波器的输出做对数运算;

(5) 进一步做离散余弦变换(DCT),得到一帧MFCC矢量,所有短时帧的输出集合作为MFCC特征矢量序列。

当噪声和语音同时存在时,一个纯音可以被以它为中心频率且具有一定带宽的连续噪音所掩蔽,相应的带宽称为临界带宽[8?9]。理论临界带宽公式为:

[BWc=25+75[1+1.4(fc1 000)2]0.69] (6)

式中[fc]为中心频率。

临界频率带宽随着频率的变化而变化,并且与Mel频率的增长是一致的,在1 000 Hz下大致呈线性分布,带宽为100 Hz左右,在1 000 Hz以上呈对数增长。类似临界频带的划分,可以将频带划分成一系列三角形的滤波器序列,即Mel滤波器组,如图9所示。

通常情况下,Mel滤波器的个数由信号的截止频率决定,滤波器通常采用三角滤波器,但是也可以采用正弦滤波器等[9]。

三角滤波器的个数直接决定了每个滤波器的中心频率、滤波器实际带宽以及中心频率对应的临界带宽。实际带宽与临界带宽的匹配程度将会直接影响MFCC参数的精度。

当信号的采样频率为16 000 Hz时(最高有效频率为8 000 Hz),分别在Mel频率轴上配置不同个数的三角滤波器。图10为Mel滤波器组分别取24个,36个,48个,64个滤波器时,三角滤波器实际带宽与中心频率对应的临界带宽曲线,实线为临界带宽曲线,星号线为实际带宽曲线。

Mel滤波器个数较少时,三角滤波器实际带宽大于临界带宽,三角滤波器的平均效应明显,精度降低;滤波器个数较多时,三角滤波器实际带宽小于临界带宽,三角滤波器的输出结果不稳定,抗干扰性较差。

当信号的采样频率为16 000 Hz时,取48个滤波器构成Mel滤波器组,实际带宽与临界带宽在低频部分较为合适。

若梅尔频率域三角滤波器输出的频谱轮廓线与原始频谱的轮廓线吻合较好,则求取的MFCC特征参数能够反映说话人的个性音色,否则就会产生偏差。图11为一帧麦克风语音与一帧固话语音的Mel滤波器组输出的幅值波形图,所使用的语音帧与图6相同。

从图11中可以看出,麦克风语音和固话语音的前20个滤波器输出(对应的实际频率即1 300 Hz以下部分),波形曲线较为接近。在第31个以上,即实际频率3 000 Hz以上的高频部分,两者差异较大。这与前文提到的频谱域参数比较结果一致。

当原始信号采样频率为16 000 Hz时,最高有效频率为8 000 Hz。根据公式(5),实际频率8 000 Hz对应的Mel频率为2 840,在Mel频率轴上设置48个滤波器组,等同于将Mel频率等间隔划分为48个频带。

根据Mel滤波器组以及语音信号倒谱的性质,可以将Mel滤波器组的输出幅值波形看作是一个采样频率为[fm,]采样间隔[fc]为[fmL]的信号,其中[fm]是原始信号最高有效频率对应的Mel频率,[L]为滤波器个数。

在信号的倒谱域中,周期是以频率域中振幅谱曲线起伏变化的间距来度量,间距越大,周期越长,在倒谱域中的“频率”越低;间距越小,周期越短,在倒谱域中的“频率”越高。

经典的傅里叶变换理论在Mel频率域上同样适用。当[fm]为2 840时,若Mel频率的采样间隔[fc]为1,倒谱频率间隔为[12 840]。

当设置[L]个滤波器时,Mel频率域的采样间隔[fc]为[fmL,]相应的倒谱频率间隔为[fcfm。]因此,每一维MFCC特征参数之间的频率间隔为[fcfm,]可以认为每一维特征参数包含[fc]个采样点。

第零维特征参数[MFCC0]对应Mel频谱曲线的均值(直流分量),第[n]维特征参数[MFCCn ]对应Mel倒谱频率范围为[[(n-1)?fc+1,n?fc-1],]其中[1≤n≤L。]

每个Mel倒谱频率点对应一个Mel频率,第[k]个Mel倒谱频率点对应的Mel频率为:

[fkmel=fkMFCC*fm,1

3.2 评价方法——[F]比

对于某一维单个参数而言,可以用[F]比表征它在说话人识别中的有效性。传统[F]比的意义在于同一说话人的不同语音会在参数空间映射出不同的点。若对同一说话人这些点分布比较集中,则[F]比值较小;对于不同说话人特征点相距较远,[F]比值较大[9]。[F=不同说话人特征参数均值的方差同一说话人特征方差的均值=<[μi-μ]2>i<[x(i)a-μi]2>a,i] (8)

式中:[·i]是指对不同说话人作平均;[·a]是指对某说话人各帧的语音特征做平均;[xia]为第[i]个说话人的第[a]帧的语音特征。

[μi = xiaa]

是第[i]个说话人的各帧特征的估计平均值,而:

[μ = μii]

是所有说话人的[μi]的均值。

根据经典的[F]比理论,当仅考虑信道差异时,同一说话人相同语音但传输信道不同,参数分布差异只来自于信道的影响。[F]比越大则说明特征参数受到信道的影响越大。

[F信道=不同信道特征参数均值的方差相同信道下特征方差的均值] (9)

3.3 特征参数受影响情况

实验选取100名说话人语音数据,其中男性50人,女性50人。样本内容为5段内容、长度不同的短文本。

实验舍弃第零维系数 [10],选取第1~30维作为比较对象。第[i]维MFCC系数记作[Ci,]第[i]维系数的[F]比值记作[Fi。]

如图12所示为所有说话人30维MFCC系数[F]比的统计数据。从图中可以明显地看出,语音信号在通过固话系统传输后,各维MFCC系数都受到了一定的影响,[F]比超过0.1说明相应维数的麦克风语音特征参数与固话语音特征参数差异较大,该频率范围内的语音信号经过固话传输后受到影响相对较大。

在30维参数中,[F2]最大,说明固话语音的第2维MFCC系数与麦克风语音的第2维MFCC系数差异最大,第2维MFCC特征参数受到影响最大。

[C2]的Mel倒谱频率范围约为[[592 840,1172 840]],对应的Mel频率范围约为[[59,117]]。根据公式(5),该Mel频率范围对应的实际频率范围为[37.6 Hz,76.6 Hz]。说明固话语音与麦克风语音在实际频率为[37.6 Hz,76.6 Hz]的频率成分附近信号差异较大。

除了[F2]外,[F7,][F8,][F12]值也较大,对应实际频率范围为[258.3 Hz,308.9 Hz],[309.8 Hz,364.1 Hz],[545.1 Hz,612.0 Hz]频率成分附近的语音信号,受到固话传输的影响较大。

从整体趋势上来看,高维系数相比低维系数受到的影响更小。

倒谱域中的低维部分对应于频率曲线的慢周期(长周期)变化,高维部分对应于频率曲线的快周期(短周期)变化。声道响应曲线为慢周期变化,在倒谱域中主要分布在低维部分。

由于语音信号在经过固话信道传输后,原始的声道响应特征受到固话信道的影响,产生了畸变,所以固话语音信号与麦克风语音信号的特征参数在低维部分差异较大。并且信号经过DCT变换后,能量主要集中在低维部分,高维部分参数能量值较小,相对差异也较小。

如图13和图14所示为不同性别说话人[F]比值对比图。可以看出,不同性别说话人各维MFCC特征参数受到影响的程度存在差别。

男性说话人各维MFCC特征参数的[F]比值与女性说话人的[F]比值相比,普遍较大。其中,男性说话人的[F2]最大,且[F]比超过0.1的维数达到23个。

女性说话人各维MFCC特征参数[F]比中,[F2]最大,[F7,][F8]也相对较大,[F]比值超过0.1的维数仅有9个。

不同性别说话人在总体趋势上基本保持一致,即低维系数的[F]比值较大,[F2,][F7,][F8]都有较大的值。

在高维MFCC特征参数的[F]比上,女性说话人的值明显较小,男性说话人高维系数的偶数项[F]比值明显小于奇数项。

由于不同性别说话人的发声器官有一定的区别,男性的声带宽而长,发出的声音较为浑厚而低沉,女性的声带窄而短,发出的声音清亮而尖锐。

不同性别说话人在频谱能量分布、基音周期范围、声道响应曲线等均存在差异,导致男女说话人的MFCC系数分布不同,在通过固话信道传输后,语音信号包含较多低频成分的男性说话人语音,相对频率成分较高的女性说话人语音,受到影响更为明显。

4 总 结

原始语音信号经过固话信道传输后,语音的音色产生了变化,从而影响了说话人识别系统的识别率。由于固话系统发送(接收)端的频响特性以及信道中存在的宽带噪声和共振型噪声,固话语音信号的时域、频域特性都产生了畸变。同一说话人的固话语音与麦克风语音在3 000 Hz以下频率部分,谐波分布位置基本相同,但是谐波的相对大小不一致,从而影响频谱包络曲线,导致音色的差异。

在对MFCC特征参数进行提取分析并做[F]比实验时发现,固话语音的第二维MFCC参数与麦克风语音的差异最大,低维MFCC系数相对高维MFCC系数差异较大,女性说话人MFCC系数的差异低于男性说话人。

从MFCC的提取过程可以看出,倒频谱将声道响应和声源激励响应分离,声道响应大多集中在倒谱参数的低维部分,声源激励响应相对集中在倒谱参数的高维部分。

本文对固话语音相对麦克风语音的时域、频域、倒谱特征域的相关参数进行了分析,对于信号失真的处理方法有待进一步分析研究。

参考文献

[1] 陈伟.信道失配条件下话者确认研究[D].合肥:中国科学技术大学,2011.

[2] BURGET L, MATEJKA P, SCHWARZ P, et al. Analysis of feature extraction and channel compensation in a GMM speaker recognition system [J]. IEEE Transactions on Audio, Speech and Language Processing, 2007, 15(7): 1979?1986.

[3] 邮电部第一研究所电话机研究室.电话机技术讲座[J].电信快报,1994(1):26?28.

[4] 樊昌信,曹丽娜.通信原理[M].北京:国防工业出版社,2002.

[5] KIM C, STERN R M. Power?normalized cepstral coefficients (PNCC) for robust speech recognition [C]// 2012 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Kyoto: IEEE, 2012, 4101?4104.

[6] 方瑜.语音增强相关问题研究[D].北京:北京邮电大学,2012.

[7] 高二中.对话电话语音的话者确认研究[D].合肥:中国科学技术大学,2011.

[8] 刘兵,孙超,杨益新,等.被动声纳目标临界频带频谱能量的特征提取[J].声学技术,2009,28(2):132?134.

[9] 赵力.语音信号处理[M].北京:机械工业出版社,2011.

[10] REYNOLDS D A. Experimental evaluation of features for robust speaker identification [J]. IEEE Transactions on Speech and Audio Processing, 1994, 2(4): 639?643.

语音 频率 信号