基于改进MFD的I-Vector说话人识别
来源:六九路网
●一t■ “dio EngiHee r} g 语蠢技术 @6@@ 而i 面 文献引用格式:李湾湾,范承志,祁才君.基于改进MFD的I-Vector说话人识别[J].电声技术,2016,40(12):43-48. L1 wanwan,FAN Chengzhi,QI Caijun.Improving MFD technique for I-Vector based speaker recognition[J].Audio Engi- neering,2016,4o(12):43_48. 中图分类号:TN912.3 文献标识码:A DOI:10.16311/j.audioe.2016.12.10 基于改进MFD的I-Vector说话人识别 李湾湾,范承志,祁才君 (浙江大学电气工程学院,浙江杭州31 ̄27) 摘要:基于I-Vector的说话人识别系统通常采用LDA进行信道补偿和特征降维,在开发集样本有限的情况下,LDA 的区分性不强。基于此,提出一种改进I-Vector说话人确认算法。在话者样本数较少的情况下,以中值f向量代替 均值i向量作为集中统计量可以减少区分信息的丢失。随着样本数量增加,改进中值分类器,采用去最大最小值后 求均值的方法作为i向量的集中趋势。用此方法计算类间与类内离散度矩阵后,对f向量进行信道补偿和降维。结 合高斯PLDA模型,以LDA和WCCN为基线系统进行仿真对比。实验结果表明,提出的算法具有良好的区分性能, 在有限的话者语音样本数量范围内,与基线相比能提升总和约3%的性能。 关键词:说话人识别; 向量;PLDA模型;线性区分性分析;改进中值分类器;信道补偿 Improving MFD technique for I-Vector based speaker recognition LI Wanwan,FAN Chengzhi,QI Caijun (College of Electircal Engineering,ZheJiang University,Hangzhou 310027,China) Abstract:I-Vector based speaker recognition system usually uses LDA technique for channel compensation and feature di— mension reduction,in the case of limited session development data,the separation ability of LDA is not obvious.Aiming at this problem,an improving I-Vector speaker verification algorithm is proposed using MFD technique.By taking the median as the estimator for the central tendency,instead of the mean,the MFD approach helps to attenuate the loss.And then get rid of the maximum and minimum values for average in the case of more samples.This improved MFD estimation is per- formed by calculating the between-and within-class scatter estimations for channel compensation and dimension reduction. Combining PLDA model,the experiments on different session development data using the techniques mentioned above are conducted compared with that of LDA method.The results show obvious improvement in separating different speakers,and the EER has a 3%reduction within the overall development data. Key words:speaker recognition;I-Vector;PLDA model;LDA;improved MFD;channel compensation 与二次验证码校验比较,生物特征验证更加安 全。相对指纹认证、面部轮廓(人脸)认证、虹膜认 间和信道子空间以及残差三部分,并通过移除信道 子空间的分量进行信道补偿。JFA在进行信道补偿 时存在空间掩盖和重叠问题,因此N.Dehak等人 J 证以及DNA认证等技术,语音信号获取容易,采集 设备成本较低,说话人识别技术更加容易普及。说 话人确认是说话人识别研究的一个重要分支,在语 音门禁、电话银行、数据库访问等系统中具有广泛 的应用前景和发展潜力…。 提出总变化因子I—Vector(Identity Vector)技术,在 超矢量空间不区分说话人和信道,而将其作为一个 整体建模,在一个总变异空间T(Total Variability Space)里将帧数不一的语音映射为固定长度的低维 近年来,基于高斯通用背景模型_2 (GMM— 矢量。该方法可以使说话人识别系统的性能得到 提升,逐步成为该研究领域的前沿技术。 在提取I-Vector后,线性区分性分析LDA(Lin- ear Discriminant Analysis)通过最大化类间离散度和 UBM)的建模方法因其出色的分类性能已成为文本 无关说话人确认的主要应用模型。联合因子分析 JFA(Joint Factor Analysis) 将UBM均值超矢量 包含的说话人信息空间分解为说话人的特征子空 ●■技一投稿网址:http://AudioE.cn 最小化类内离散度准则对I矢量进行降维和信道补 r——:1 2016 ̄第40卷第12期l43I nn语音技术 @5@@可⑧@ ∞◎ 偿 、然而,在相似信道相近语音情 下LDA并不能 充分利用类问判刖关系,导致系统鲁捧性变差 . j于以上研究的启发,本文提 一种改进I—V tol・ 1)ise ̄’iminator)对l—Ve(_ll}r进行降维和信道补偿.并做 类内协方差归一化WCCN(Within—Class Covm'iallee Nol’eralization)处理,得到更具判别性的l—Vector’,进 说话人确认算法 采用改进MFD(Median FisheJ・ 入离斯PLDA模型打分,基本系统框架『』f l所示 】1 T空间和I—Vector技术 I-Vector技术 引入了说话人总变异空问T的 统汁量,相应的公式为 Ⅳ =∑P((一、 ,I!) f=I (3) (4) 慨念,将联合因子分析(JFA)算法巾说话人冈子分 1信道 子分毓同时映射在一个低维空问巾。 给定一段语音,丛于Baum—Welch统 ‘城将与说话 , F =∑,)(c。 . )) , l:l 一f,:c‘是高斯冗什下标;,J是讲膏帧数;J ,是语音向 地;P(cfY n)是,, 元件c下的混合后验概率, 是 个高斯元件的参数 人稀1信道市H天的GMM均值超向量降维到一个同定 K度的I-Vectol。,最终缚个语段都能表示成长度相 的I-Vector向量。 M=肌+Tw+£ (1) 2 PLDA模型与打分 2.1 PLDA模型 式,II. 是GMM均值超向量; 是UBM均值 ;lt,与说话人和信道部无关,代表所彳丁人在任意 信道下的均值超向量的平均值; 为总变异空间, 是一个低秩的全局差异空间矩阵;w为说话人冈 予,【_乜就是I—Vector低维欠量,服从标准正态 分・ j 概率线性鉴别分析(PLDA)将I—Vector视作南 生成式模型产生,早期作为信道补偿fx:分技术,PI|一 DA 接在I—Vee r…’ 问建模说话人干¨ 道变量, 与JI:A类似地不能准确区分说话人币¨俯道信息,移 除术征信道部分,并fi_用全角矩阵表爪残差,似设 矩阵可根据期望最大化(EM)算法在训练语 第 个说话人的第 个l-Veetor表示为“一 91lJ其 ,Ji过程框架为 w, = + +。. ,(5) 音集上估计生成,给定一段语音,- r以根据式(2)得 到柑1应的I—Veetor “ =[,+ ‘ ,v ] r,‘ ‘。 … ,(2) 式fll: 为所有I—V tor向量的均值;V表示说话人 空问(本征音矩阵); 代表第i个人的说 人冈子, 服从标准正态分布;。 表示残差,包含倍道冈予,服 从均值为0,协方謦 为D的正态分伽 关于馍 式…I: 为71训练过程中产生的对角协方差矩 代表了总变异卒问不能拟合的残留变异;,v 是高斯元件的状态I 有率; 是一阶1]aum—Weleh 囫 生兰! 鲞笙 啊声技 投稿网址:hltp:t/AiIIlit htll ●一奠一 “dt0 EngtH ee rlH g 语音技术n疗 凹⑥6@@可@@响响@0@固V 型参数 =( , ,D)的估计同样用EM算法 实现 “]。 研究发现高斯PLDA(GPLDA)与重尾PLDA (heavy—tailed PLDA)相比,在信道匹配上优势不 强¨ 。若先对I—Vector进行白化和长度归一 化,使其满足标准高斯分布后,则GPLDA方法性 能提升,并减少了计算量¨ 。本文系统的搭建采 用归一化GPLDA模型。白化和归一化公式分 别为。 m=d-1/2U (6) …=—— 'lUw:——ht (7)~,) m 式中: 是正交矩阵,包含了I-Vector协方差矩阵 的特征向量;d是包含相应特征值的对角矩阵。 2.2 PLDA打分 估计好模型参数后,给定两段语音的I—Vector 向量W 和W ,按式(6)~(7)进行白化和归一化, 然后由式(8)计算对数似然比。 表示两个I—Vec- tor向量来自同一个说话人的假设,Onon表示两个I— Vector向量来自不同说话人的假设。 P(W1,W2 l 0 ) 。g 而 叫 一 。gⅣ([ ];【 ],[ 三]) (8) 式中:乏。 =wI+D~,艺。=VV。令 =0,将上式化 简为: Score=W Qwl+w2Qw2+2w ̄IPW2 (9) Q= o~t一( 一 。 -1 oc) (10) P= to t ( 一 。。 。 ) (11) 若要进一步提高计算度,可以仿照文献[15]。 3 信道补偿技术 在总变异空间 上投影得到的I—Vector同时 含有说话人特征和信道特征,需要对其进行信道补 偿,消除信道差异带来的影响。由于I—Vector向量 是低维的,在进入PLDA之前可以采取多种方式补 偿。如王明合 ,栗志意 " 等人提出了I—Vector 局部加权线性判别分析和局部距离保持映射的方 法,优化效果明显。而典型的方式是结合类内协 方差归一(WCCN)的线性判别分析(LDA)。 ●囊投●投稿网址:http://AudioE.cn 3.1 LDA+WCC LDA的基本思想就是根据Fisher准则最大化 类间离散度,增加不同说话人之间的区分性,同时 最小化类内离散度,增强同一说话人内的紧凑性, 以此找到这样一个投影矩阵 。假设类间离散度矩 阵为s ,类内离散度矩阵为s ,则最大化投影 满 足 V=AS V,对此式本征分解即可得到投影矩阵 。S 和S 分别满足下式: S S =∑nS=1 s(w_ -一w)( 一 )‘ (12) s :∑∑( ;一 。)(伽 一 ) (13) 式中:Is是总的说话人数;/7, 是说话人S的语音段数 量。 是第S个说话人的第i个语音段;W 是说话 人S的所有I—Vector向量均值; 是所有说话人的I —Vector向量均值,公式如下,其中Ⅳ是总的语音段 数目。 : 1∑刍 ns ; (14) 1 s ns = ; (15) 投影矩阵 由最大的前 个特征值对应的特 征向量形成,某段语音的原I—Vector向量W经 投 影后的说话人特征为 W = W (16) 经过LDA后,对投影后的说话人特征向量进行 WCCN映射。WCCN的映射矩阵 可通过式BB : W 的Cholesky分解得到,W定义为 1 S w=专∑∑(一S=l l (埘s 一 ))( ( s 一 )) (17) 3.2 MFD+WCCN 第2.1节中每个说话人I-Vector均值的精确性 会影响到离散度矩阵的计算,进而影响映射矩阵。 当开发数据集中每个说话人的语音数量较少时,求 I-Vector均值可能导致说话人区分信息的丢失。基 于此,提出用中值代替均值的估计方法来得到映射 矩阵,可以减少损失程度n 。MFD(Median Fisher Discriminator)的离散度矩阵计算公式为 S s “:∑/7,s( 一 )( 一 ̄w) (18) =l S .s “:∑∑(5=1 I=1 :一 )( 一 ) (19) 2o16 ̄40卷第12期lasl nn语音技术 @6@@可@@响响⑥0⑥翊 ●一奠■ I,t i0 EIl,9i”ePriH 式中: 是每个说话人的中值I-Vector向量 是所 有说话人中值I—Vector向量的均值,其他参数均与 LDA中的一致。 小检测代价函数MinDCF(Minimum Detection Cost Function)。其中,最小检测代价函数计算公式引用 文献l l9]。 4.2实验结果与分析 w =Median({ , , ;,…, : )) 1 =(20) S 专∑ n '1., ’ S=I ( )21)21 1)实验1:I-Vector分离性能对比 系统中提取的语音特征一般是高维的,通过数 据无法直观地看到不同说话人之间的区分性,为此 MFD的投影矩阵y和映射过程的估计与第2.1 节中相同。同样经过MFD后,对投影后的说话人 将高维特征数据映射到二维平面,进行二维可视 特征向量进行WCCN映射。 3.3修整MFD+WCCN 虽然MFD方法在样本数量较少的情况下可以 提升系统性能,当样本数量增加时用中值作为每一 类的集中趋势会产生一定偏差,同样会丢失说话人 的相关信息。因此,本文提出修整MFD方法来进 行信道补偿和特征降维。对每个说话人的所有I— Vector进行排序,去掉最大最小样本,求剩余I— Vector的均值,作为每一类的集中f向量。对式 (18)、(19)作如下变化: 5 =∑rts(W 一W r)(’., 一W p) (22) S=l S s =∑∑( s 一Wts)( 一 ) (23) 式中: 是第s个说话人所有i向量去最大值和最 小值后的均值;W 是所有’., 向量的平均值。投影 映射过程和WCCN映射过程保持不变。为方便起 见,将修整MFD简写成I—MFD。 4 实验仿真与分析 4.1实验设置 本实验仿真以LDA+GPLDA为基线,在普通环 境下录制了45个人的小样本语音数据,其中男生 22人,女生23人,采样频率为8 000 Hz,量化位为 16 bit。实验前对所有语音信号进行预处理,包括预 加重(预加重系数0.97)、分帧(窗口长度20 ms,移 动窗口10 ms)以及有效语音端点检狈0(VAD)。在 此基础上提取20维MFCC特征,并与1,2阶差分构 成最终的6O维特征参数。训练UBM模型时,采用 男女通用型,高斯混合模型的混合度设为32,I— Vector向量的维度设为100,LDA降维后新维数 为39。 本文使用GPLDA打分模型,打分前I—Vector 进行白化和归一化。实验测试指标采用等错误率 EER(Equal Eeror Rate)和NIST SRE2008规定的最 1461 2016 ̄第40卷第12期 化。实验中,随机选取相邻5个说话人(m3/m4/ m5/m6/m7),每人5段语音样本,对这些语音信号 提取I—Vector后,分别采用LDA,MFD和I—MFD方 法,将每个I-Vector映射到低维空间并进行长度规 整,如图2所示。可以明显地观察到MFD的分离能 力优于LDA,并且I—MFD方法更有优势。 2)实验2:打分测试 实验选取20个目标说话人,每人5段语音样 本,提取I-Vector后对其求平均作为目标说话人的 模型I—Vector。另取这2O人的测试语音段(每人 1段)进行测试。则每个测试样本的I—Vector会 和每一位目标说话人的模型I—Vector进行对数 似然打分。本实验中随机抽取了3位测试者 (m8/m9/ml4)的打分情况进行观察,结果如图3 所示。 由图3可知,测试者与相对应身份一致的目标 说话人的分数较突出,而与身份不一致的目标说 话者的分数较低,以此可以很好的建立阈值进行 YES/NO的身份确认。说明了该系统的可行性。 同时,对比发现采用MFD和I—MFD方法的打分 结果具有明显优势,身份不一致的测试者和目标 说话人的打分能够降到更低,有助于提高区分 性能。 3)实验3:基于LDA,MFD,I—MFD的系统性能 对比 本实验将LDA,MFD和I—MFD方法分别应用 于基于I—Vector向量和GPLDA打分框架的说话人 确认系统测试它们抑制信道干扰和特征降维的性 能。每个说话人的样本数量由3段增至7段,每种 情况测试5次求均值作为最终的等错误率值和 DCF值。数据结果如表1所示。 由表1可知,随着每个说话人样本数量的增 加,系统的错误率下降,说明样本越多包含说话人 的信息越多,系统区分性越好。在样本数量较少的 ●囊投●投稿网址:http://AudioE.cn ●一奠■ ¨dt0 Engi¨eerin0 @6@@可 }@响嗡@0@翊U 童羹 第一维 (a)低维LDA投影 辍 辍牵 靛 第一维 (b)低维MFD投影 第一维 (c)低维I—MFD投影 图2 分离能力对比 情况下,MFD方法比LDA方法更具优越性,而当样 本数量增加的情况下,MFD的区分性不如基线,而 修整后的方法却可以达到较好效果。由此验证了 本文提出的改进理论。 5 小结 本文在深入研究I—Vector技术和线性区分技 术LDA的基础上,提出改进算法,对说话人i向量 ●声援●投稿网址:http://AudioE.cn 目标说话人 (a)m8的打分结果 《革籁莨 目标说话人 (b)m9的打分结果 目标说话人 (c)ml4的打分结果 图3 打分测试情况对比 进行映射区分。在开发数据集较少的情况下,以中 值f向量代替均值f向量作为每位说话人的集中趋 势,有助于减少区分信息的丢失;随着每个话者语 音样本的增加则采用去掉最小最大值求平均的方 法获得说话人集中i向量。结合高斯PLDA框架, 以LDA和WCCN为基线系统进行仿真对比,实验 结果表明,本文提出的算法具有良好的区分性能, 在有限的话者样本数量范围内与基线相比能提升 总和约3%的性能。 堕蔓 鲞业塑囹 nn语音技术 [[ 口 ⑥6@@可@@ ⑥n⑥ 表1 ¨】A,MFD,1-MFD的性能铲妍 参考文献: f 1]杨阳,陈水fjj】.一追文 别技术及其心川[-l_.电 技术. 2007,31(2):45—50. 【2]RENOLDS D A.QtiATIEIII T F,IlL JNN l{B.Speaker Vel’iif( at Jmi using ada1)ted Gaussian mixlln'e models[J . Digital Signal l'rt essing,2000,J0(1—3):l9—41. 『3]周同鑫,高田. 】:(;MM—UBM模 的说 人辨识研究 J .无线【U 1 ,2014,44(12):14—1 7. l4 I KENNY t’,B()… IANNE G。OUE1 I I’I’.et a1.Joinl fa(‘lor almlysis Ve+SllS eigencha,+Hels in speaker rerogniifol1 lJ].IEEE Ti’ai1sa(・Iions on Audio,Sp* ech and[,angtmge Pmeessillg,2007.15(4):1435—1447. [5] KENNY P.A shldv of interspeakel‘va+‘lability it+speakel’ .veI‘iif( alien J j.IEEE Transaetions(1n Au<liu,Spee(・h alid Language Processing,2008,16(5):980—988. [6] 郭武. 轶杰,蛾礼荣,等.悦话人识圳iIIi 0 子分析以 n及窄间拼接f J .『I动化学报,2009,35(9):345—354. [7] DEHAK N.Fron!一¨nl factor alialysis“lr Sl" ̄eaker Vel‘iflea— I ion『J].IEEE Frmisaetions(711 Audio.Spe ̄ ch fill(j l1- guage I ¨ PSSl’llg,201 l,19(4):788—798. 『8] 邢上娟,潘颖,曹晓『_I1『-,等.改进i一向 说 人识刖算法 研究_J1.科学技术 jT程,20I4,I4(34):224—227. 图 主蔓 鲞笙! 塑 』9 J KENNY A small fool/)rinl l—V (‘lot l x㈨(’ [(:j.P¨I_ eeedings I1fl Odysse)Speakel‘LtllII 1 anguag{、Re(‘oglifti()1l Ⅵ orkshop.SingapolP.Jun.2012. 【10】MATROtIF D,SCHEFF、ER N,FAUⅥ:I{,et a1.A sl raight一“'l、va al efficient imple,1n-!litation of Ihe fa<・|Ol al+alysis l,no(1el sI1t aker Vel’ifi(mtion【C].Conference ot the.1nte+national SI、t Pt-h Conuntmieation Asso,・iatiol1.Ant— wel’P in I{elginm,Aug 2007:1242一l 245. 【1 1]KENNY P,B()川 IANNE r .DUM()UCtIEI P。Eig ̄Ⅲ一 voice modeling with spars『rainining data J].IEEE。l。'’lans. Sttee(‘lI Audi(’Pro+・eSs.2005。1 3(3):4057-4060. 【I2 1许云琶,周若华,颜水红.基于l,IJDA的多 道多讲 说 活人确认研究[J]M络新媒体技术,2()14,3(1):l3一 l9. }I 3 j KENNY P.Ih:Iv ̄ sian speaker、 iti(・alion、^ill+heaxv tailed .JMors j.IJrI t edings ol’the 0fbsse}。Sit+ ak(q’and lI. guage Re<:ognitioti WOl’kshop.1+h.tnl iI1 Czech Republi(‘,2010. 114]李琳,万 町,洪 …,等. 1一慨牢修l I)A的蜕话人 识别系统f J].天津人学学报,2015,48(8):692-596. 1 l5]GARCIA—ROMER()D.ESPY—wII_s()N c、.Anahsis of i-Ve(‘“'r J ngth II(H nudization ilI speakel r( (’ognition s)st(・Ill_ [C].hltemationa1 Conference(tit Speet-h(:lHIlnlUllieation and Teehnnhtgy.H,a‘Pilee,Italy,20ll:249-252. |I 16]王明合,唐振 ,张’ 华. 于i-v _lI”¨ffl;JJt+权线性y-0 别分折的说 人 !圳[J],仪 仪犬 :报,2015,36 (12):2842—2848. 1】7]栗志意,何兜. } 惨别性i-、 _l I』 6 离保持映射 的说话人识)j『J系统l J].清华大学学报,2()l2,52(5): 598-601. 1l 8 KANAGASL NI)ARAM A,DtLAN I),SI{I1)}{AllAN S.IIll— proving PLI)A speake r verifi(’ation with lilniled develop— ill(-I,national ConferPIlI-P Oli A(-oustit- Spee( IiⅢ1(1 Signa f)( essing.FhiI'ence:IEEE.2014 l665—1 669. 19 PADMANABttAN R,AN FeN AFAN AS't EV.VILLE H. PI a1.1'’H)hi single to muhiple ellr(dlment i-ve(・IoI‘s:Pra(・ti— eal PI I)A ‘Ol’ingⅢal ia,lfs for speake1.、el’il at ion J] Dig— ital Signal IJrOCf ssing,2014,31(8):93一101. 作者简介: 李湾湾(1992一),殳,坝士叶 ,主要研究_,,…为说话人以 圳厅面的研究; 范承志,剐教授,颅 导师.} 研究,J‘lh] 说活人以 tJlj 而的研究; 祁才君,男,剐敦授,卜要研究方向为说话人 只别 面的 研究. 责任编辑:李薇 收稿日期:2016-07—1 J 一声投 投稿网址:http:// 、I I l…