马平++黄浩++程露红+杨萌萌
摘 要: 为了进一步提升i?vector说话人识别模型的系统性能,探讨了基于i?vector的说话人识别系统中训练时长、男女比例和高斯混合度对系统识别性能的影响。针对训练时长、男女比例和高斯混合度设置了一组实验,结合目前最流行的语音识别工具Kaldi进行验证,得出i?vector说话人识别算法的最佳参数,为以后的基于i?vector说话人识别算法研究提供数据依据。
关键词: 说话人识别; i?vector; Kaldi; 训练时长
中图分类号: TN911?34; TP391 文献标识码: A 文章编号: 1004?373X(2016)14?0001?03
Research on training duration of speaker recognition algorithm based on i?vector
MA Ping, HUANG Hao, CHENG Luhong, YANG Mengmeng
(School of Information Science and Engineering, Xinjiang University, Urumqi 830046, China)
Abstract: In order to further enhance the system performance of speaker recognition model based on i?vector, the effect of the training time, the sex ratio and Gaussian mixture in the speaker recognition system based on i?vector on the performance of system identification is discussed in this paper. In this article, a set of experiments is set in allusion to the training time, the sex ratio and Gaussian mixture, and is verified in combination with the most popular voice recognition tool Kaldi. The best parameters of the speaker recognition algorithm based on i?vector were obtained, which provided a data basis for later research on the speaker recognition algorithm based on i?vector.
Keywords: speaker recognition; i?vector; Kaldi; training duration
0 引 言
说话人识别是指计算机通过对说话人语音信号进行分析处理,进而提取能反映特定说话人生理和行为的语音特征参数来自动识别说话人身份的技术。该技术已广泛应用于国家安全、司法鉴定、电话银行、语音拨号等诸多领域。说话人识别根据识别目标的不同,可分为说话人辨别和说话人确认两类,本文主要研究基于i?vector说话人辨认模型来分析和测试语料时长、男女比例和高斯混合度之间的关系。
当前由NIST组织的比较流行的国际说话人评测系统,主要是建立在以混合高斯模型?通用背景模型(Gaussian Mixture Model?Universal Background Model,GMM?UBM)[1]的基础上。随后学者们在此基础上进行了改进,从而得出高斯混合模型超矢量?支持向量机(Gaussian Mixture Model Super?support Vector Machine,GSV?SVM)[2]、联合因子分析(Joint Factor Analysis,JFA)[3]及i?vector(identity vector)[4]等说话人建模技术,其中i?vector识别系统已成为当今最前沿最有效的说话人识别技术,其性能明显优于GSV?SVM和JFA这两种识别系统。通过总结以往的研究成果发现在训练和提取i?vector时,对语料的时长、高斯混合度及男女比例不是太关注。但在实际的实验中,提取i?vector特征的语料参数也非常重要,需要经过多次测试比较,找到训练时长、混合度、男女比例和系统性能之间的关系,从而减少训练时间和工作量,为以后的研究提供一个基本的数据依据。
1 基于i?vector的说话人识别系统
1.1 i?vector基本原理
基于身份认证矢量i?vector说话人辨别系统的基本思想是假设说话人信息以及信道信息同时处于高斯混合模型高维均值超矢量(Super Vector,SV)空间中,通过利用在这个超矢量空间中训练包括说话人信息和信道差异的全差异(Total Variability,TV)空间,将每个说话人语音数据的均值超矢量S分解为:
[S=m+Tω] (1)
式中:S代表高斯混合模型的高维均值超矢量;m代表与特定说话人信息和信道信息无关的一个超矢量;T为全差异空间,将高维的高斯混合模型均值超矢量在该子空间上进行投影,得到低维的总体变化因子矢量[ω],[ω]是包含整段语音中的说话人信息和信道信息的一个全差异因子,即i?vector。其实现框图如图1所示。
基于GMM?UBM的说话人系统的通用背景模型(UBM)是由大量说话人的语料通过期望最大化(EM)[5]训练得到的,其代表着统计平均的说话人信息和信道信息,在此基础上,将注册语料通过最大后验概率算法(MAP)[6]自适应得到目标说话人模型。