英文语音发音标准化的模式识别对比方法改进分析_新闻_

5 语音识别过程-人工智能核心技术

郑碧君++刘涛

摘要：针对英文语音发音标准化评价准确性不高的问题，提出一种基于发音特征倒谱系数感知的英文语音发音标准化的模式识别对比方法。首先构建英文语音发音的语音信号采集模型，对采集的英文语音信号进行发音器官的动作属性配对描述。然后提取英文语音发音信号的倒谱特性，采用梅尔频率倒谱系数感知方法进行英文语音发音特征建模和发音位置及方式的模式识别，为语音发音提供标准化对比模式。最后进行实验分析，测试结果表明，采用该方法进行英文语音发音特征检测和模式识别的准确度较高，对发音特征的声学建模有效可靠。

关键词：英文发音；语音信号；模式识别；发音标准化评价

中图分类号： TN911?34； TP391.42 文献标识码： A 文章编号： 1004?373X（2017）12?0028?03

Abstract： Aiming at the problem that the evaluation accuracy of English pronunciation standardization is not high， a pattern recognition and contrast method for English pronunciation standardization based on the perceptual standard of pronunciation characteristic cepstral coefficient is proposed in this paper. Speech signal acquisition model of English voice pronunciation is built to pair and describe action attributes of pronunciation organ for the acquired English voice signal first， and then extract the cepstrum characteristics of English speech signal. The sensing method of Mel frequency cepstral coefficients is used to carry out English speech pronunciation feature modeling， and recognize the pattern of pronunciation position and mode， so as to provide a standardized comparison mode for voice pronunciation. The experimental analysis and the test results show that the proposed method is effective and reliable for the acoustic modeling of the pronunciation features， and has the high accuracy for the feature detection and pattern recognition of English speech pronunciation.

Keywords： English pronunciation； speech signal； pattern recognition； pronunciation standardization evaluation

在进行英文发音的学习和训练中，目前主流的方法是采用语音识别系统进行发音的标准化纠正和对比。通过提取英文发音过程中的发音器官的动作特征和语音信号，对比发音器官的动作属性，对不同的说话人进行差异性特征匹配，分析发音器官随着对不同英文发音类别的变化动作特征，分析送气音、清音、鼻音等各种英文语义发音标准化模式，构建语音发音标准化的模式识别系统。对语音信号频谱分析，提高英文语音发音的标准性。研究英文语音发音标准化的模式识别对比方法在改善英文教学和培训质量方面具有重要意义。对英文语音发音的语音识别分析方法典型的有高阶谱分析方法[1?2]、梅尔频率倒谱分析方法[3]、模糊识别方法和专家系统识别方法[4?6]，通过提取语音信号的谱特征，实现模式识别，提高英文语音发音的标准化水平。

1 英文语音发音标准化模式识别对比实现

2 实验测试分析

实验中以金山词霸的2013版本Shake英文语音发音数据集为标准发音训练样本，选择10位不同性别和不同年龄段的测试对象进行英文语音发音的模式识别和信号分析，采集各个测试对象的英文语音发音作为测试集，得到标准英文语音发音训练集信号和测试集信号如图2所示。

以上述语音信号为研究对象，提取英文语音发音信号的倒谱，采用梅尔频率倒谱系数感知方法进行英文语音发音特征建模和发音位置及方式的模式识别和配对，得到结果如图3所示。

从图3可见，采用本文方法进行英文语音发音信号的倒谱特征提取，能有效反应语音信号的特征信息量，通过语音信号与发音器官的动作属性配对处理，进行发音动作纠正。表1给出了不同的模式识别类型进行英文发音标准化识别对比的纠正结果，分别以替代错误率（Sub）、发音器官错误率（Org）、声源错误率（Source）和统计平均错误率（Err）为评价指标，从表1结果可见，采用本文方法进行英文语音发音的标准化模式识别对比，能有效降低语音发音的错误率，说明利用该方法进行英文语音发音特征检测和模式识别的准确度较高。

3 结语

本文研究了英文语音发音的標准化模式识别和对比方法构建问题，提出一种基于发音特征倒谱系数感知的英文语音发音标准化的模式识别对比方法。首先构建英文语音发音的语音信号采集模型，对采集的英文语音信号进行发音器官的动作属性配对描述，提取英文语音发音信号的倒谱特性，采用梅尔频率倒谱系数感知方法进行英文语音发音特征建模和发音位置及方式的模式识别，为语音发音提供标准化对比模式。实验结果表明，采用本文方法进行英文语音发音特征检测和模式识别的准确度较高，对发音特征的声学建模有效可靠，在指导英文发音学习和矫正中具有重要的实践价值。

参考文献

[1] 田莎莎，唐菀，佘纬.改进MFCC参数在非特定人语音识别中的研究[J].科技通报，2013，29（3）：139?142.

[2] BOUDIA O R M， SENOUCI S M， FEHAM M. A novel secure aggregation scheme for wireless sensor networks using stateful public key cryptography [J]. Ad hoc networks， 2015， 32（C）： 98?113.

[3] CHEN S， WANG G， JIA W. Cluster?group based trusted computing for mobile social networks using implicit social behavioral graph [J]. Future generation computer systems， 2016， 55： 391?400.

[4] CHANG Y L， LIN T L. Network?based H.264/AVC whole frame loss visibility model and frame dropping methods [J]. IEEE transactions on image processing， 2012， 21（8）： 3353?3363.

[5] DU Qinsheng， JIANG Baohua. Design and implementation of the embedded based Web camera system [J]. Journal of software， 2012， 7（11）， 2560?2566.

[6] 闫峰.基于小波变换语音信号去噪及DSP算法实现[D].哈尔滨：哈尔滨工业大学，2008.

[7] 李晶皎，安冬，王骄.基于EEMD和ICA的语音去噪算法[J].东北大学学报（自然科学版），2011，32（11）：1554?1557.

[8] 李优，林煜明，黄德根.模拟语音信号的加噪去噪实验研究[J].仪器仪表学报，2006，27（6）：993?994.

[9] 张婷，何凌，黄华，等.基于临界频带及能量熵的语音端点检测[J].计算机应用，2013，33（1）：175?178.