您好,欢迎来到六九路网。
搜索
您的当前位置:首页基于噪声特性的语音增强算法

基于噪声特性的语音增强算法

来源:六九路网
弟lb巷弟33别2u ,牛¨月 什 子 丁又 / I J] 上 任 Vol・1u jj l uV・ u1u 1671—1815(2016)33—0244-06 Science Technology and Engineering ⑥2016 Sci.Tech.Engrg. 基于噪声特性的语音增强算法 孟欣 马建芬 张雪英 曹棣 (太原理工大学计算机科学与技术学院 ,信息工程学院 ,晋中030600) 摘要 针对不同的语音增强算法对不同噪声的增强效果不同,提出了一种基于深度神经网络的噪声分类的语音增强算法。 首先,使用深度神经网络(DNN)算法对噪声进行分类。分类算法包括训练阶段和分类阶段。在训练阶段,采用babble,car, street,train四中噪声对DNN进行训练;在分类阶段,将提取的噪声输入训练好的DNN中,得到分类结果,并对分类性能进行 评估。其次,采用PESQ,LSD及SNR等语音评估方法,对不同的含噪语音在不同信噪比、不同语音增强算法下进行评估。语 音增强算法包括子空间法、维纳滤波算法、谱减法及对数最小均方误差法(1ogMMSE),噪声包括babble,car,street,train,信噪 比为一5db,0db和5db,并对通过评估得到的值采用平均值法得到噪声和语音增强算法的最佳匹配;最后,针对不同分类噪声, 采用不同的增强算法进行语音增强,并对4种噪声之外的噪声根据本文算法选取相应的语音增强算法。 关键词语音增强 噪音分类 深度神经网络 子空间法 维纳滤波 谱减法 对数最小均方误差法 中图法分类号TP391.9; 文献标志码A 当今时代移动式通信系统迅猛发展,但移动式 通信的背景环境是非常复杂的,而背景噪声往往会 在很大程度上影响通信质量;因此研究语音增强算 法去除噪声,进而增强语音质量和可懂度是非常必 要的。 估方法对增强后的语音进行评估,得到噪声和语音 增强算法的最佳匹配。 在得到最佳匹配后,接下来的问题是:对于实际 问题,如何得到噪声类型,选取最佳的语音增强算法 进行增强。这就需要对噪声进行分类。噪声分类的 方法有很多,包括基于高斯混合模型的噪音分 类 J,k最近邻算法H ,随机森林树法¨¨,基于 Bark域能量分布的噪声分类方法¨ 等。在文献 [13,14]中,提出深度神经网络具有极强的回归能 力,能够最大程度的提高语音增强的性能,为深度神 经网络在语音方面的应用开辟了道路。本文受到文 单通道语音增强方法因其具有简单性、普遍实 用性和易于实现性等特点,成为了语音增强的研究 热点 j。在过去的几十年间,提出了很多类型基 于单通道的语音增强算法。最基本的语音增强算法 包括以下几种:谱减法 j,维纳滤波算法,最小均方 误差(MMSE)算法 ,对数最小均方误差 (LogMMSE)算法 ,子空间的语音增强算法 J,进 而实现语音增强。 近年来,大多数人都致力于在原有算法上进行 改进,从而得到在某一方面更加优化的语音增强算 法。但很少有人对这些基本的算法进行比较,比较 它们究竟适合于哪种背景噪声,本文将子空间法、维 纳滤波算法、谱减法及logMMSE这些最基本的语音 增强算法进行对比,在babble,car,street,train四 种噪声下对纯净语音按照不同的信噪比进行加噪, 再把这些含噪语音输入到上述四种语音增强算法中 进行语音增强,最后通过PESQ,LSD和SNR三种评 2016年6月12 Et收到 教育部高等学校博士点基金 (20111402110013)资助 第一作者简介:孟欣(1992一),女,山西省临汾市人,硕士研究生。 研究方向:语音信号处理。E-mail:553129547@qq.eom。 通信作者简介:马建芬(1967一),女,河北省保定市人,教授,博士。 研究方向:语音信号处理、自然语言处理。 献[13,14]的启发,想进一步探索深度神经网络的 分类能力,所以提出了一种基于深度神经网络的噪 声分类算法。现实生活中,背景噪声的种类十分复 杂,深度神经网络强大的非线性映射能力能够在很 大程度上提高分类的准确性。 本文提出了一种基于深度神经网络的噪声分类 下的语音增算法。研究目的是采用深度神经网络进 行噪声分类,初步探索深度神经网络的分类能力并 且通过实验的方法,使得特定类型的噪声能够得到 最合适的语音增强算法进行处理。首先,使用深度 神经网络训练噪声;其次,通过实验,得到噪声类型 与语音增强算法的最佳匹配;最后,提取含噪语音中 的噪音部分,输入到训练好的深度神经网络中,得到 噪声类型结果,并输入到最佳匹配的语音增强算法 中进行增强 1使用深度神经网络进行噪声分类 正如引言所述,为了初步探索深度神经网络的 33期 孟欣,等:基于噪声特性的语音增强算法 分类能力,本文使用深度神经网络对噪声进行分类, 使用深度神经网络能有效的防止使用人工神经网络 时容易陷入局部最优的状态,并且能够处理更为复 杂的分类问题。深度神经网络的系统如图1所示。 此系统分为两个阶段,训练阶段和分类阶段。在训 练阶段,使用纯噪声对深度神经网络系统进行分类 训练,输人层为纯噪声提取的特征向量,本文在进行 实验时,使用梅尔频率倒谱系数(MFCC)对纯噪声 进行特征提取,MFCC中梅滤波器的阶数为64,包括 MFCC参数和一阶MFCC参数,其中采样率为8 000 Hz,帧长为256,帧位移为128,得到64维的特征向 量。输出层为噪声类型判断,具体分类类型判段标 志如表1所示。选择一个隐藏层,其中包括128个 神经元,所以本文采用的深度神经网络系统的结构 为64—128—4;在分类阶段,提取含噪语音的噪声 阶段,使用MFCC进行特征向量提取,输入到在训练 阶段训练好的系统中,得到含噪语音所对应的噪声 类型。 一 分类阶段  l图1 深度神经网络分类系统 Fig.1 Classification system based on deep neural network 表1分类判段标志 Tablel The mask of classiifed judgement 噪声类型 标志 噪声类型 标志 Babble 1000 Train 0010 Car 0100 Street 00o1 1.1深度神经网络预训练 预训练阶段,采用前馈神经网络进行训练。对 于以前的人工神经网络而言,如果在初始化阶段采 用随机初始化网络系数,会陷人局部最小值¨ ,尤 其是在网络较为复杂时。因此,在本文中,使用受限 玻尔兹曼机(RBMs)对深度神经网络进行初始化, 第一层为高斯贝努力GRBM,剩下的层的均为贝努 力RBM。隐藏单元采用sigmoid函数,输出单元采 用线性函数。接下来,利用无监督学习法进行逐层 训练,在这个过程中,使用一个客观的标准——对比 差异法 更新RBM的参数。 1.2基于最小均方误差的微调 预训练之后,在得到的输出单元与目标单元之 间使用基于最小均方误差的反馈算法继续训练深度 神经网络。此处的目标单元即为分类判断的标志。 这个阶段利用有监督学习算法进行微调。使用最小 批量随机梯度下降算法逐步减小均方误差: 1 ⅣD E=亩∑∑[ :(We,be)一 ] (1) 式(1)中, 为均方误差, (We,b )和 分别表示 输出层第d个神经元的值和分类标志中第d个元素 的值。Ⅳ表示最小批量大小,D表示输出层神经元的 个数,此处为4;We,b 表示第£层权重和偏差参数。 接下来通过迭代更新权重 和偏差b,设学习速率 为A,,c为权重衰变稀疏,∞为动力。迭代计算如式 (2)。 △( +., )= 一A 一KAA(一( +。,66 +。)+nJ )+ △( n,, b ),1≤ ≤L+1 (2) 在本文的实验中,最小批量的Ⅳ为128,学习速 率A为0.01,权重衰变系数K为0,前5次迭代,动 力 为0.5,之后动力 为0.9。 1.3噪声分类的性能 1.3.1 纯噪声分类准确性评估 为了评估基于深度神经网络的噪声分类方法的 性能,本文首先测试了对纯噪声分类的准确性。如 图2所示,图2(a)为12 s的纯噪声,4种训练过的 分类噪声,每种3 8;图2(b)为纯噪声分类结果,可 以看到,大部分噪声都能准确的分类(即位于1的 位置,且颜色对应正确),只有少部分未能准确的分 类(颜色对应不正确),横轴为时间单位,纵轴为分 类值。 O O 0 . Ll -‘‘“ _^ -Ⅱ上山 釜一o ” 1 叩 7’1r —O -o 图2纯噪声分类准确性 Fig.2 The classification accuracy of the pure noise 科学技术与工程 16卷 1.3.2 不同分类标准的对比 为了评估深度神经网络用于噪声分类的准确 性,本文用浅度神经网络与之对比,特征提取方法控 制为相同方法,层数及神经元个数相同。分类的准 确性如表2所示(SNN为浅度神经网络,DNN为深 度神经网络)。可以看出,使用深度神经网络进行 噪声分类具的准确性高于使用人工神经网络进行噪 声分类的准确性。且使用深度神经网络时最高的准 确率可以达到100%。 表2不同分类方法分类的准确性 Table 2 The classified accuracy of different classification method 2噪声类型与语音增强算法的匹配 本文在进行噪声与增强算法的匹配时,使用了 四种噪声,是来自Noise一92噪声库中的纯噪声,包括 babble,car,street和train,文献[17]中指出,这四种 噪声具有普遍代表性,被很多研究所采用,所以本文 也将采用这四种噪声。纯净句子语音信号来自 IEEE句子语音库的全部720组句子,纯净语音及噪 声的采样率均为8 kHz,量化精度为16 bito采用了 多种性能评估方式对增强后的语音进行了性能评 估,包括语音质量的感知评估(PESQ) ,对数谱失 真(LSD) 和输出信噪比(outputSNR)三种。其中 PESQ是ITU-T P.862建议书提供的客观MOS值评 价方法,与主观评分的相关度很高,PESQ值越高, 语音质量越好;LSD能够较准确的测量去噪语音的 失真程度,LSD值越低,扭曲度越低;outputSNR值越 高,去噪能力越强。所以PESQ值越高,LSD值越 低,outputSNR值越高,语音增强算法对噪声的增强 性能越好。 本文对全部720组纯净句子语料分别在信噪比 为一5 dB,0 dB及5 dB的情况下进行加噪。在同一 种信噪比条件下,分别使用子空间算法、维纳滤波算 法、谱减法和logMMSE法对加噪语音进行处理,同 一种信噪比下的同一种类型噪声经过同一种降噪处 理可以得到1种测试条件,每一种测试条件都会经 过三种评估方式,即PESQ、LSD和outputSNR进行 评估,再分别计算同一信噪比条件下每一种性能评 估的平均值作为最终的增强性能能力值。测试条件 共有4×3×4×3,即144种。PESQ,LSD和out— putSNR三种客观评价的结果分别如表3,表4和表 5所示。 表3 PESQ的值 Table 3 The value of PESQ 表4 LSD的值 Table 4 The value Of LSD 综合这三种评估方法,可以发现:①对于babble 噪声,logMMSE的PESQ虽然最高,但LSD值太高, 即扭曲度过高,outputSNR值过低,即输出的信噪比 低,去噪能力差,所以综合考虑,babble类型的噪声 最适合实验谱减法进行去噪;②对于ear噪声,无论 从哪种评估角度出发,都是应该选择维纳滤波法;③ 对于Street噪声和Train噪声,应该选择子空间法。 这样,我们就得到了实验的四种噪声与语音增强算 法直接的最佳匹配。 33期 孟欣,等:基于噪声特性的语音增强算法 表5 OutputSNR的值 Table 5 The value of outputSNR 3基于噪声分类的语音增强 在文本的第一部分,使用深度神经网络对噪声 进行准确的分类;第二部分,对噪声类型与语音增强 算法进行了最优匹配;之后,对含噪语音进行如下处 理,如图3所示,首先提取语音的前120 ms,视为噪 声部分,之后输入到训练好的深度神经网络中,得到 准确的噪声类型,再根据第一部分的最优匹配,选取 最佳语音增强算法。 图3语音增强算法的流程图 Fig.3 The flow chat of speech enhancement algorithm 4实验结果及分析 对于本实验所选取的4种噪声,分类的准确性 及对于噪声选取的语音增强算法的性能都在前几部 分得到了验证与评估。而对于未知噪声该如何进行 分类和增强算法的选取将进行初步的实验与说明。 本文中进一步的选取了两种噪声,分别为Trafifc (N47)和Machine(N44),选自文献[20]中的噪声 库。对于这两种未知噪声,将做如下处理:①提取噪 声的特征向量,输入到训练好的深度神经网络中,做 最佳匹配,把噪声匹配到现有的4种噪声类型中,得 到分类结果后选取相应的语音增强算法;②用实验 验证分类后判断出的语音增强算法是否准确。 4.1分类结果 选取的两种噪声与本文所用的噪声的匹配度如 表6,表7所示,即Traffic与Babble噪声类似,Ma. chine与Car噪声类似,所以Traffic噪声应该选择谱 减法,Machine噪声应该选择维纳滤波算法。 表6 Trafifc的匹配结果 Table 6 Matching result of trafifc 分类类型 1000 0100 0010 0001 相关度/% 100 0 0 0 表7 Machine的匹配结果 Table 7 Matching result of machine 分类类型 1000 0100 0010 0001 相关度/% 1 93 6 0 4.2验证判断的准确性 对选取的Traffic噪声和Machine噪声进行加躁 后去噪,纯净语音选用IEEE纯净语音库中的全部 720句语音,信噪比为一5 dB,0 dB和5 dB,采用率 为8 000 Hz。使用本文所用的4种噪声进行增强, 在三个信噪比的条件下取平均值,结果如表8所示。 表8 SNR,LSD,PESQ的平均值 Table 8 The average value of SNR,LSD。PESQ Traffic Machine SNR LSD PESQ SNR LSD PESQ 维纳滤波3.74 6.78 2.11 6.88 5.72 2.22 子空间 4.40 6.47 1.941 6.50 5.94 2.16 谱减法4.77 6.30 2.15 6.31 6.06 2.14 LogMMSE 0.58 9.19 2.13 1.08 9.17 2.12 由表8可以看出,Trafifc噪声选取谱减法,Ma— chine噪声选取维纳滤波算法的结果最好,正好符合 使用深度神经网络判断的结果,进一步验证了本文 提出算法的鲁棒性。 5 结语 本文以一个新的角度实现了语音增强。不同于 以往提出新的算法使得语音增强性能提高,本文首 先使用深度神经网络算法对噪声进行了分类,通过 与人工神经网络的对比,得知此方法高于人工神经 网络进行分类的准确性,最好状态下分类准确性可 248 科学技术与工程 16卷 以达到100%,对深度神经网络的分类性能做了初 步探索。其次,比较了几种经典的算法,对于它们适 合于增强何种噪声通过实验给了明确的匹配。最 后,通过噪声和语音增强算法的匹配结合,得到更好 的增强性能。 在本次实验性研究中,选取了4种噪声,包括 babble,car,street和train,最佳匹配为babble噪声 应选用谱减法进行语音增强,car噪声应选用维纳滤 波算法进行语音增强,street和train应选用子空间 法进行语音增强。对于本实验中不包含的噪声,也 做了相应的验证,未涉及到的噪声类型能够较准确 的匹配到本文实验的4种噪声中,得到相对较好的 结果。本文通过一些基础性的工作为以后的研究奠 定了方向。 当然,本文还存在很多不足,比如只对4种噪声 进行了最佳匹配,而且对增强算法覆盖的也不够全 面,以后可以进一步通过分析更多噪声的特性,覆盖 更为全面的噪声类型和语音增强算法类型,进行相 应的研究,且坚信,随着噪声种类的增多,网络会更 为复杂,使用深度神经网络进行噪声分类效果会更 加优于其他分类算法,使得本研究更具有普遍性和 优越性,更能应用于实际生活。 参考文献 Deepa D,Prakarsha C,Shanmugam A.Single channel speech en— hancement using spectral gainshaping method and dereverberation for digital hearing aid.Computer Communication and Informatics(ICC— Ct),2012 International Conference on.IEEE,2012:1_-6 2 Tseng H W,Vishnubhotla S,Hong M,et a1.A novel single channel speech enhancement approach by combining Wiener filter and dic— tionary learning.Acoustics,Speech,and Signal Processing,1988. ICASSP一88.,1988 International Con rence on.2013:8653--8657 3 Xia B,Bao C.Wiener filtering based speech enhancement with Weighted Denoising Auto-encoder and noise classiifcation.Speech Communication,2014;60(2):13—29 4 Singh S,Tripathy M,Anand R S.Single channel speech enhance— ment for mixed non—stationary noise environments.Advances in Sig— nal Processing and Intelligent Recognition Systems.Springer Interna— tional Publishing.2014:545—555 Gerkmann T,Krawczvk—Becker M,Roux J L.Phase processing for single—channel speech enhancement:history and recent advances. Signal Processing Magazine IEEE,2015;32(2):55—66 6 Boll S.Suppression of acoustic noise in speech using spectral subtrac— tion.IEEE Transactions on Acoustics Speech&Signal Processing. 1979,27(2):113—12O 7 Ephraim Y,Malah D,Ephraim Y.Speech enhancement using a rain- imum mean-square error short—time spectral amplitude estimator. IEEE Transactions on Acoustics,Speech,Singal Processing.1984: 1109—1121 8 Ephraim Y,Malab D.Speech enhancement using a nfinimum mean- square elTor log・spectral amplitude estimator.Acoustics Speech& Signal Processing IEEE Transactions on,1985;33(2):443--445 9 Ephraim Y,Van Trees H L.A spectrally-based signal subspace ap— proach for speech enhancement.icassp.IEEE Computer Society, 1995:804—807 10 Khunars ̄P,Lursinsap C,Raicharoen T.Very short time environ— mentla sound classification based on spectrogram pattern matching. Information Sciences,2013;243(18):57—_74 1 1 Sake F,Kehtamavaz N.Background noise classiifcation using ran— dom forest tree classiifer for cochlear implant applications.Acous— tics,Speech and Signal Processing(ICASSP),2014 IEEE Interna— tional Confefence on.IEEE,2014:3591--3595 l2袁文浩,林家骏,陈宁,等.一种基于Bark域能量分布的噪 声分类方法.华东理工大学学报:自然科学版,2013;(4): 472—1476 Yuan W H,Lin J J,Chen N,et a1.A noise classiifcation method base on noise energy distirbution in bark domain.Journal of East China University of Science and Technology:Naturla Science Edi— tion,2013;(4):472—476 13 Xu Y,Du J,Dai L R,et a1.An experimental study on speech en— hancement based on deep neurla networks.IEEE Signal Processing Letters,2014;21(1):65—68 14 Xu Y,Du J,Dai L R,et a1.A regression approach to speech en— hancement based on deep neurla networks.Audio Speech&Lan— guage Processing IEEE/ACM Transactions on,2015;23(1):7—19 15 Hinton G E,Salakhutdinoy R R.Reducing the dimensionality of da— ta with neurla networks.Science,2006;313(5786):5o4—5O7 16 Bengio Y.Learning deep architectures for AI.Foundations&Trends ◎in Machine Learning,2009;2(1):l一127 17 Ma J,Hu Y,Loizou P C.Objective measures for predicting speech intelligibility in noisy conditions based on new band—importance functions.Journal of the Acoustical Society of America,2009;125 (5):3387—4O5 18 ITU—T,Rec. 862,Perceptual evaluation of speech quality (PESQ):an objective method for end—to—end speech quality assess— meflt of narrow—band telephone networks and speech,2000 19 Nordin F,Eriksson A speech spectrum distortion measure with in— terframe memory.Proceedings of the Acoustics,Speech,and Signal Processing,on IEEE International Conference—Volume 02.IEEE Computer Society.2001:7 l7—-72O 20 Hu G,100 non-speechenvironmental sounds,Available:http:// WWW.cse.ohio-state.edu/pnl/corpus/HuCorpus.thml,2004 (下转第261页) 33期 程朋,等:工字型城市地下人行通道的通风环境与优化设计研究 261 Study on Ventilation Environment and Optimization Design of Urban I-shaped Pedestrian Underpass CHENG Peng 一,WANG Yong ,WANG Yan—li ,LI Ming—zhong4 (Scho01 of civil Engineering and Architecture,Anhui University of Science and Technology ,Huainan 232001,P・R・China; State Kev Lab0ratory 0f Geomechanics and Geotechnical Engineering,Institute of Rock and Soil Mechanics, . Chinese Ac&demv nf Sciences .Wuhan 430071,P.R.China;Key Laboratory of Geotechnical Mechanics and Engineering 0f the Ministry of Water Resources,Yangtze River Scientific Research Institute ,Wuhan 4300lO,P・R・ China; China First Meta11urgical Group Co.,IJtd ,Wuhan 430081,P.R.China) r Abstract] In order to explore the ventilation environment and reveal the condensation mechanism ol 1-shap0d Dedestrian underpass adopted by cities in the rainy and humid regions in south areas of China in summer,on s te m0nit0ring of Yuejiazui pedestrian underpass in Wuhan was carried out,including air temperature,humidity,wall mperature,wind speed,and other parameters. A contrastive analysis was made between CFD numerical simula— t lo n and the measured data.Results show that natural ventilation is diiculft to achieve in main channel of the I。 8haped pedestrian underpass.The underpass is often in state of high humidity and prone to condensation in sum— mer.The reas0n of condensation phenomenon can be explained by Magnus formula.Different optimization models 0f I-shaped pedestrian underpass are compared by CFD numerical simulation,and the rationality of the optimization heme is veriifed. It ean provide reference f0r the construction of pedestrian underpass project in the southern city of China. pedestrian underpass \ \ [Key words] ventilation environment ) magnus formula CFD 、 、 (上接第248页) Speech Enhancement Algorithm Based on the Noise Characteristics MENG Xin .MA Jian—fen ,ZHANG Xue—ying ,CAO Di (College of Computer Science and Technology , College 0f Information Engineering ,Taiyuan University of Technology,Jinzhong 030600,P.R.China) 『Abstract] According to that different speech enhancement algorithm has a different enhancement effect on di±- flerent noise tvpe,a kind of speech enhancement algorithm based on the noise classiication of deep neural netfwork was pI0lposed. Firstly,deep neural network(DNN)algorithm was exploited to classify noise and the classiifcation algorithms comprised two stages:the training stage and classiication stage.In the traifning stage,the noise babble, car.street and train were using for training DNN,in classification stage,inputting the extracted noise to the trained DNN.obtained the classification result and evaluated the classiication performance;Secondly,speech evaluation fmeth0ds such as PESQ,LSD and SNR were adopted to evaluate the performance.For different noisy speech in dif- flerent SNR.different speech enhancement algorithms were evaluated.The speech enhancement algorithms which were adopted including subspace,wiener filtering,spectral subtraction and logMMSE algorithm,the adopted noise including babble,car,street and train,the adopted SNR including一5 db,0 db and 5 db.The values which were obtained bv evaluated were used to get the best match between noise and speech enhancement algorithm;Finally, according to different noise type,using different speech enhancement algorithm to conduct speech enhancement,as for another noise type.according to proposed algorithm select relevant speech enhancement algorithm・ [Key words] speech enhancement algorithm 一, “ 一 wiener filtering noise classiifcation logMMSE deep neural network subspace spectral subtraction 

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- 69lv.com 版权所有 湘ICP备2023021910号-1

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务