您好,欢迎来到六九路网。
搜索
您的当前位置:首页AES专论-双耳技术(二):双耳信号合成中HRTF的实现建模

AES专论-双耳技术(二):双耳信号合成中HRTF的实现建模

来源:六九路网
声学

B播

f

//«•»顧

y.-i>:- ' .>i.p'H f.:T ikc

文献引用格式:陈小平.AES专论-双耳技术(二):双耳信号合成中HRTF的实现建模[

J].电声技术,2018 , 42(5) :36 - 41.

CHEN X P. HRTF Implementation modelling in binaural synthesis[ J]. Audio engineering, 2018 , 42(5) :36 -41.

文献标志码

中图分类号

:TP912.27 :B DOI:10. 16311/j. audioe. 2018.05.009

AES专论-双耳技术(二):

双耳信号合成中HRTF的实现建模

陈小平(编译)

(中国传媒大学音乐与录音艺术学院,北京100000)

摘要:在简述头相关传输函数HRTF及其原始数据获取方法后,介绍了双耳信号合成中HRTF的预处理和HRTF的 “最小相位滤波器+纯延时”模型,最后筒述了双耳信号合成的两种实现方式。关键词:HRTF;HRTF预处理;最小相位滤波器;纯延时

HRTF Implementation Modelling in Binaural Synthesis

CHEN Xiaoping

(School of Music & Recording Arts, Communication University of China, Beijing 100000, China)

Abstract : After shortly describing the Head - Related Transfer Functions and the methods of obtaining HRTF by measure­ment or numerical calculation, the pre - processing of HRTF and the minimum phase filter + pure delay M model of HRTF in binaural synthesis are introduced. The two strategies of implementing binaural synthesis are mentioned lastly.Key words:HRTF; HRTF pre - processing; minimum phase filter; pure delay

l

弓丨言

头相关传输函数(Head - Related Transfer Func­

3所示为几种不同的HRTF测量装置[1]。其中,图1 所示的方法较适合水平面和中垂面HRTF的测量, 图2的方法可以方便地测量所有方向的HRTF,图3 所示为采用仿真头测量。

进行HR1T测量时,传声器的放置有两个基本 方法[1]:

(1) (2)

外耳道堵塞式(测量传声器安装在一个外 外耳道开放式(微型探管传声器置入外耳

耳道硬模具里并置于外耳道人口处,如图1所示);

tions, HRTF 或 HRTFs ) 是双耳技术的基本出 发点,

它定义为从声源到听音者双耳的声传输路径的传 输函数。HRTF包含了这一声波传播过程所遇到的 一切声学现象,包括自由场传播、听音者头部的衍 射效应、肩部和躯干的反射以及耳廓的反射与衍 射。每个方向对应一对特定的传输函数。听觉系 统能够从HRTF中提取方向信息,然后经过听觉分 析后得出声音方位感。当用两只插入听音者外耳 道的微型传声器进行某个声景录音时,空间信息自 然就以其个人特有的一套HRTF置人所录制的声音 中。在双耳信号合成时,空间信息是通过人为将声 音信号与HRTF滤波器(也称为双耳滤波器)卷积 后置入的。

道且尽量靠近耳鼓)。

第一种方法的优点是,传声器放置的位置相对 固定,因此可多次放置重复测量,信噪比较高,但是 没有对外耳道的传输函数进行测量。由于这部分 传输函数与声源的方向无关,因此,这种方法测得 的HRTF不会丧失任何声源空间定位信息。第二种 方法被公认为标准的HRTF测量方法,但也存在一些 缺点:由于每次测量的位置会发生微小变化,使得测 量的可重复性变差;探管传声器低频特性存在下限; 外耳道的»^频率特性测量产生显著干扰[1] 〇

2

HRTF原始数据的获取

获得HRTF的最佳途径是声学测量。图1 ~图

m

裨釣垮奶■曲叫让:丨

irip:._V.WioEjcn

廨繽顧

^

I^f.w ift'rf -V^

a破试坐在H形稱架中心沿##!)(移动)

b被试头部蜓否转动BJ由磁性头榷典踪埋轚%

图1

荷兰

c »|ft传声咎〔扑耳:滋坊塞式

TNO的HRTF测量装置[1]

图2法国

IRCAM的HRTF测量装置[1]:

被试的座椅安装在可转动的底座上以改变水平方位角(扬声器的垂直方位角可调)

图3

ISVR的HRTF测量装置(英国南安普敦大学)[1]

J3^

• PII # -IS:^ i : lutp://^ udittEm

声学

B

f

//«•»顧

y.-i>:- ' .>i.p'H f.:T ikc

HRTF测量是一项繁杂的工作,有以下几个

HRTF幅度频谱除以参考方向的幅度频谱。自由场

均衡通常以正前方(水平方位角P =〇°、垂直方位 角或仰角0 =0°)为参考方向。扩散场均衡则采用 将

原因:

(1) 理想情况下需要在消声室进行测试;(2)

误差小于1°至2°,为此需要高质量有效控制的机械 设备;

(3) 所有方向的HRTF幅频特性平均后作为参考函数, 必须能够很好地控制扬声器位置,使方向

HRTF幅度频谱与之相除。

其次,可以对HRTF频率特性进行平滑处理,消

被试相对于扬声器的方向必须有恰当的装 除幅频特性曲线上微小的波动。研究表明[2],高达

置跟踪监视;

(4)

为了测得球体所有方向的成千甚至上万个

HRTF,被试需要持续站立1至2小时,并保持头部

静止状态,这无疑是一项艰巨的工作。

到目前为止,只有少数机构具有这样的测量条 件。也有一些机构提供免费的HRTF数据库,例如, 法国 IRCAM (网址:http://recherche. ircam. fr/e-

quipes/salles/listen,51 个被试、187 个方向)、日本

东北大学(网址:http://www. ais_ riec. tohoku. ac. jp/

lab/db - hrtf/index. htm、3 个被试、4 个方向)。

另一种获得HRTF的方法是数学建模计算。计 算方法分为有限兀法(Finite Element Method,FEM) 和边界兀法(Boundary Element Method,BEM),它们 都是基于对听音者头部形状进行网格化建模。建 模计算存在高频上限问题,因为精确建模需要在一 个波长内至少设立6个结点,如果要对频率高达 20kHz进行建模,网格的密度将非常高,尤其是耳廓 部分,将极大地增加计算量并耗费计算时间。此 外,创建髙频网格模型需要操作复杂的专用设备, 例如,高精度3D激光扫描仪或MRI(核磁共振成 像),而这些并不是研究机构的常规设备。

3

双耳信号合成中HRTF的实现建模

3.1

HRTF

预处理

在实现HRTF滤波器前,需要对其进行预处理。 预处理的目的是使HRTF在保留空间感信息的同 时,使其频谱特性曲线的波动尽可能小。由于空间 感信息部分地基于频谱的变化,任何对HRTF的改 变都可能影响到定位线索,从而影响声音的空间感 质量和虚拟声源的真实感。另一方面,HRTF的频 谱特性又使声源的音色变差。因此,HRTF预处理 应在空间感和良好音色之间取得平衡。

首先,可以对HRTF进行均衡处理。均衡处理 分为自由场均衡和扩散场均衡[1]。所谓自由场均 衡,就是选取某一方向为参考方向,将所有方向的

閱如1碎制券鈣曲

二分之一倍频程带宽的频谱平滑处理,不会明显影

响和劣化声音定位性能,似乎SC(Spectral Cues,频 谱线索或频谱定位信息)对频率的分辨率并无很高 要求,频率分辨率甚至可以低于听觉滤波器。

均衡和平滑处理后,HRTF函数的幅频特性起 伏更小、变化更慢,如图4所示。这不仅使频谱失 真最小化,而且也便于双耳滤波器的实现。

(采用听觉滤波器对应的频率分辨率进行平滑 处理,被试R.N.,左耳,水平面,= -45°,数据源

于 Orange Labs)

3.2用“最小相位滤波器+纯延时”表示HRTF

3.2.1模型介绍

在双耳信号合成中,用于实现HRTF的最常用

模型是“最小相位滤波器+纯延时”[1]。最小相位 滤波器代表HRTF的幅度频谱特性;纯延时代表

HRTF所含的时间信息,即相位频谱特性。

设趴/)为需要实现的HRTF函数,则最小相位 滤

(P定义为[1]

\\Hminphase(p\\ = \\HCf)\\

(1)

= »[TH( - l〇g( |H(f) |))] ^

其中,TH代表希尔伯特变换(注:因果系统传 输函数的实部与虚部之间满足希尔伯特变换,同 理,最小相位函数的ln|tf(yw) |与p(w)之间也满

<_鑪 _ 投稿网址;■ hltp:/7AiicHoEjcn

廨繽顧

^

I^f.w ift'rf -V^

足一定的关系,构成一个变换对,称为波特关系式, 上式源于此关系式,详见有关参考书)。可见,最小 相位滤波器仅由HRTF的幅度频谱决定,仅与ILD

(Interaural Level Difference,双耳声级差)和 SC 有

关。纯延时则代表HRTF的相位特性,可以通过评 估 HRTF 或 HRIR ( Head - Related Impulse Respon­

ses,HRTF 的时域表示) 的延时得到。在实现滤波

器时,通常只实现代表双耳延时差的一个纯延时, 被加到对侧的HRTF。此外,这个延时并不包含

HRTT的所有延时信息,因为最小相位滤波器本身

还存在延时。

整个建模过程如图5所示,要点说明如下:(1) 最小相位滤波器的幅频特性与原始HRTF

完全相同;

(2) 最小相位滤波器的相频特性仅由HRTF频特性决定,与原始HRTF相位无关;(3) 剩余相频特性为原始HRTF相频特性与最 小相位滤波器相频特性之差;

(4)

由剩余相频特性导出纯延时,即线性相位

特性,替代之并由此引人相位特性误差。

剩余相频特性用纯延时表示是否合理?事实 上[3],听觉并不能分析和感知全部的相位频谱信 息,至少不能感知其细微的变化;当频率髙于1. 5

kHz时,双耳相位差(IPD)并不能被听觉有效转换

为 ITD(Interaural Time Difference,双耳时间差)。听 音实验表明[4],听觉并不能区别原始HRTF相频特 性与纯延时的差异,相频特性中细微的变化在听感 上是无关紧要的,允许简单地用纯延时替代。3.2.2纯延时的计算

在双耳滤波器的“最小相位滤波器+纯延时” 建模中,主要有四种计算纯延时的方法[1],分别是 根据相频特性的斜率计算、根据HRIR的第一个峰 计算、根据双耳互相关函数最大值计算以及根据群 延时计算。在任何一种方法中,延时都是从剩余相 频特性进行计算。除了双耳互相关函数法,其他方 法中左耳和右耳的延时需要分别计算,然后求差值 得到纯延时。

(1)根据相频特性斜率计算

此方法是通过线性回归法计算剩余相频特性 的斜率。回归法只应用于有限频率范围,例如,1~ 5 kHz或0.5 ~2 kHz。因为ITD主要在低频段作为 定位依据,在高频段,由于听觉系统不能够从相位 信息分析出ITD,定位的主要依据是ILD而不是

ITD,因此,可以把重点放在低频段时间信息的提

•费妓•

收科网土上:I

m.l ioPUT

C «余相桷恃1*1

d汁iiilM戌I■〖扣位特竹

s MJ饯扦相鉍特性代余ffl輞特竹fci产t

的相纪特扑读衫

图5 “最小相位滤波器+纯延时”模型[1] (被试R.N.,左耳,水平面,供=-45。,

数据源于Orange Labs)

取上。

幅 声学

B

f

//«•»顧

y.-i>:- ' .>i.p'H f.:T ikc

另一个类似的方法是计算随频率变化的相位 延时,然后在给定频段求平均值,称为平均相位延 时法。设剩余相频特性函数为^phase~

(2)

纯延时的计算公式为

t

1 \" Jf,1

—e(/)d/

(3)

其中/l =0 Hz,/2 =2 kHz。

(2)检测

HRIR的前沿

在这种算法中,HRIR的延时定义为当HRIR的

幅度达到峰值的10%或20%的时间[5]。如果想提 高准确度,可以先将HRIR以8倍或10倍上采样。 此外,还需要计算最小相位滤波器的延时,然后减 去这部分延时,得到的才是剩余相频特性的延时。

(3) 双耳互相关函数(IACC)的最大值第三种方法是基于计算左耳和右耳HRIR的互相关函数达到最大值的延时,这个延时就是左右耳 脉冲响应的时间差。最小相位滤波器的延时也要 以同样方法进行计算,以便相减后得到所需的剩余 相频特性的纯延时。

Nam等人对这一方法进行了修正[6],提出了计

算HRIR与其最小相位函数之间的互相关函数,最 大值对应的延时就是剰余相频特性的延时。修正 的方法是基于以下考虑,即HRIR与其最小相位函 数比其与对侧HRIR有更大的相似性,使得互相关 函数的测算更有意义。尤其对于侧向声源,由于对 侧HRIR受到头部衍射效应的影响发生了较大变 化,用左右耳HRIR测算互相关函数最大值并不十 分可靠。修正的方法称为Nam法。Nam法需要分 别计算左耳和右耳延时,然后求差值。听音实验证 实,与原IACC法相比,新方法确实改善了侧向 定位。

(4) 根据群延时计算

Minnaar等人提出了基于对剩余相频特性直流 (f = 〇)群延时进行计算的方法[5]。群延时计算公

式为

T

(卜

2舰irdf

(4)

W

Minnaar等人指出,这种算法可以使“最小相位

滤波器+纯延时”模型在听感上与原HRTF相一 致,甚至对侧向声源也是如此。然而,在实际应用 中,由于测量HRTF时,直流分量无法在录音系统记 录下来,因此直流群延时测算法存在缺陷。Nam等

加@积2券釘曲

人提出了更好的替代方法[6],即在0.5 kHz至2 kHz 频率范围对群延时求频率加权均值,加权函数由

HRTF的幅频特性决定。计算公式为

t 二 df

(5)

其中乂 =500 Hz/2 =2 kHz, 为频率加权

函数。

3.2.3延时测算方法的评估

延时测算方法的评估标准是,“最小相位滤波

器+纯延时”模型在听感上与原HRTF相一致,对 任何声源方向,两者都不存在差异。

R. Nicol在博士论文中,对不同算法所得结果

的数值差异进行了调查。上述4种方法被用于对 来自 5 个数据库(Orange Labs、IRC AM、CIPIC、Uni­

versity of Maryland、Wightman) 的 112 个被试的 HRTF的纯延时进行测算。实验中只考察了水平面

的24个方向。得到的结果是,这个变化范围在42

p(邻近中垂面的方向)和303 p(远离中垂面的方

向)之间。这些数据还需结合听觉对ITD的敏感度 做进一步分析。较早的文献指出,ITD JND( Just No­

ticeable Difference, 可觉差 ) 与 ITD 的基数有关,当

基数为〇 P时,JND约为10 (xs,当ITD基数增大为 430 p和790 jjls时,JND分别增大到29 p和 50

因此,当与ITD JND进行比较后,发现不同

测算方法之间的数值差明显大于差别阈,这意味 着,听觉可以觉察到不同测算方法之间的差异。

Busson等人提出了另一种对延时测算法进行

评价的方法[7]。首先通过主观评价测出使“最小相

位滤波器+纯延时”模型与原HRTT最相配的延 时,称为“感知法测得的延时”。然后将这个延时作 为目标值,测出计算值在多大程度偏离感知目标 值。图6所示为测算延时与感知目标延时的比较, 其中应用的延时测算法有6种,分别是低频平均相 位延时法(频率范围:〇 kHz至2 kHz)、相频特性斜 率法(0.5 kHz至2 kHz)、前沿测算法、IACC最大值 法、Nam法和低频平均群延时法(0. 5 kHz至 2 kHz)。由图可知,除了相位延时法,所有延时测 算值都非常接近感知目标值。

4双耳信号合成的两种实现方式[1]

双耳信号合成的实现方式主要有两种:双通道

和多通道。前者是默认的实现模式,即声源由与虚 拟定位方向对应的左、右耳滤波器(即两个通道)合 成,每个声源都需要一对定制的滤波器,滤波器对 的数目与需要合成的声源数目相等。对于较为复

廨繽顧

^

I^f.w ift'rf -V^

图6

测算延时与感知目标延时的比较

(实线表示各个算法的线性回归值)

杂的声景,实现的代价随声源个数迅速增加。多通 道模式是基于HRTF滤波器的线性扩展,将HRTF 分解为多个滤波器的线性叠加,其基本思路是将传 输函数的频率特性和空间特性分别处理。一个

HRTF滤波器可以表示为空间函数与频率

函数i印乘积之和,即

N

^i = l

(6)

其中,滤波器^(/•与HRTF的方向无关,也就 是说,这N个滤波器(通常N小于10)对于所有方 向的HRTF是相同的。空间函数6(^0)用于对频 率特性进行加权处理,使其具有相应方向的定位特 性。多通道实现的优点在于:当需要合成的声源数 量较大时,由于i;(/)滤波器数目并不随声源数量 的增大而增大,因此可以大大降低实现的成本并提 高效率。而当声源数量较少时,多通道实现的成本 髙于双通道的成本。在实际应用中,信号处理分为 两步:首先,将所有声源信号经过相应方向

加权后被叠加,形成N个输人信号;其次,

所产生的N个信号分别馈送给乙(/)进行处理。上 述实现方式既可用于原始HRTF,也可用于最小相 位HRTF。对于后者,意味着纯延时要另外以合适 的方式实现。

定义空间函数6^,0)和滤波器1;(/)有多种 不同方法。例如,它们可以通过主成分分析(Princi­

pal Component Analysis , PCA ) 或成分分析 ( In­dividual Component Analysis , IC A ) 得到 。也 可以选

择已知的空间函数,例如,基于勒让德多项式的球 谐函数(Spherical Harmonics)。在对HRTF进行线

•费妓•

收科叩上:I m.l ioPUi、

性扩展或分解时,可以只考虑某个特定个体的

HRTF,也可以考虑一组个体的HRTF。在后一种情 况下,得到的空间函数可以标注为“通用”,不带有 明显的个体特征。研究还发现,个体差异主要存在 于滤波器函数A (/)中。

此外,耳机重放多声道环绕声也可以看成一种 双耳信号合成。这个方法可以使我们用耳机重放 多声道环绕声(5.1、6.1、7.1、10.2、22.2等),听到 具有3D空间感的声音,而不需要配置任何复杂的 扬声器系统。这种下变换也称为双耳下变换(bin­

aural downmix)。 双耳下变换可 以看成多通道模式,

声源的空间感主要由原来的多声道制式决定(例

如,强度差声像定位),这个特性定义了空间函数即

,而滤波器&(/)由虚拟扬声器所在方向

的HRTF决定。当双耳下变换应用于重放髙阶全景 声(Higher Order Ambisonics, H0A)时,较好的方法 是将球谐函数作为空间函数。这样,有可能将H0A 解码与空间函数相结合,使产生最佳信号处理 效果。

参考文献:

[1 ] ROZENN NICOL. AES Monograph : Binaural Technology

[C], AES International Convention, 2010.

[2] A KULKARNI, H S COLBURN. Role of spectral detail

in sound - source localization [ J ]. Nature, 1998 : 747 -749.

[3] A W MILLS, Auditory localisation (in Foundations of

Modem Auditory Theory) [ M ]. New York ; Academic Press, 1972.

[4] A KULKARNI, S ISABELL, H COLBURN. Sensitivity of

related transfer function phase spectra [ C ]. J. Acoust. Soc. Am. , 1999.

[5] P MINNAAR, J PLOGSTIES, S K OLESEN, et al. The

interaural time difference in binaural synthesis [ C ]. In Proc. of the 108th AES Convention, 2000.

[6] J NAM, J S ABEL, J 0 SMITH III. A method for estima­

ting interaural time difference for binaural synthesis. In Proc. of the 125th AES Convention, 2008.

[7] S BUSSON, R NICOL, B KATZ. Subjective investiga­

tions of the interaural time difference in the horizontal plane[J] • In Proc. of the 118th AES Convention,2005: 28-31.

责任编辑:徐弘涛

收稿日期

:2018 -04 -02

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- 69lv.com 版权所有 湘ICP备2023021910号-1

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务