听觉系统的感知特性

许多科学工作者一直在研究听觉系统对声音的感知特性,下面介绍已经用在MPEG Audio压缩编码算法中的三个特性:响度、音高和掩蔽效应。

.1.1. 对响度的感知

声音的响度就是声音的强弱。在物理上,声音的响度使用客观测量单位来度量,即dyn/cm2(达因/平方厘米)(声压)或W/cm2(瓦特/平方厘米)(声强)。在心理上,主观感觉的声音强弱使用响度级“方(phon)”或者“宋(sone)”来度量。这两种感知声音强弱的计量单位是完全不同的两种概念,但是它们之间又有一定的联系。

当声音弱到人的耳朵刚刚可以听见时,我们称此时的声音强度为“听阈”。例如,1 kHz纯音的声强达到10-16w/cm2(定义成零dB声强级)时,人耳刚能听到,此时的主观响度级定为零方。实验表明,听阈是随频率变化的。测出的“听阈频率”曲线如图9-01所示。图中最靠下面的一根曲线叫做“零方等响度级”曲线,也称“绝对听阈”曲线,即在安静环境中,能被人耳听到的纯音的最小值。

另一种极端的情况是声音强到使人耳感到疼痛。实验表明,如果频率为1 kHz的纯音的声强级达到120 dB左右时人的耳朵就感到疼痛,这个阈值称为“痛阈”。对不同的频率进行测量,可以得到“痛阈频率”曲线,如图9-01中最靠上面所示的一根曲线。这条曲线也就是120方等响度级曲线。

在“听阈频率”曲线和“痛阈频率”曲线之间的区域就是人耳的听觉范围。这个范围内的等响度级曲线也是用同样的方法测量出来的。由图9-01可以看出,1 kHz的10 dB的声音和200 Hz的30 dB的声音,在人耳听起来具有相同的响度。

图9-01 “听阈频率”曲线

图9-01说明人耳对不同频率的敏感程度差别很大,其中对2 kHz~4 kHz范围的信号最为敏感,幅度很低的信号都能被人耳听到。而在低频区和高频区,能被人耳听到的信号幅度要高得多。

.1.2. 对音高的感知

客观上用频率来表示声音的音高,其单位是Hz。而主观感觉的音高单位则是“美(Mel)”,主观音高与客观音高的关系是


其中的单位为Hz,这也是两个既不相同又有联系的单位。

人耳对响度的感觉有一个范围,即从听阈到痛阈。同样,人耳对频率的感觉也有一个范围。人耳可以听到的最低频率约20 Hz,最高频率约18000 Hz。正如测量响度时是以1 kHz纯音为基准一样,在测量音高时则以40 dB声强为基准,并且同样由主观感觉来确定。

测量主观音高时,让实验者听两个声强级为40 dB的纯音,固定其中一个纯音的频率,调节另一个纯音的频率,直到他感到后者的音高为前者的两倍,就标定这两个声音的音高差为两倍。实验表明,音高与频率之间也不是线性关系。测出的“音高频率”曲线如图9-02所示。

图9-02 “音高频率”曲线

.1.3. 掩蔽效应

一种频率的声音阻碍听觉系统感受另一种频率的声音的现象称为掩蔽效应。前者称为掩蔽声音(masking tone),后者称为被掩蔽声音(masked tone)。掩蔽可分成频域掩蔽和时域掩蔽。

1. 频域掩蔽

一个强纯音会掩蔽在其附近同时发声的弱纯音,这种特性称为频域掩蔽,也称同时掩蔽(simultaneous masking)。如图9-03所示,一个声强为60 dB、频率为1000 Hz的纯音,另外还有一个1100 Hz的纯音,前者比后者高18 dB,在这种情况下我们的耳朵就只能听到那个1000 Hz的强音。如果有一个1000 Hz的纯音和一个声强比它低18 dB的2000 Hz的纯音,那么我们的耳朵将会同时听到这两个声音。要想让2000 Hz的纯音也听不到,则需要把它降到比1000 Hz的纯音低45 dB。一般来说,弱纯音离强纯音越近就越容易被掩蔽。

图9-03 声强为60 dB、频率为1000 Hz纯音的掩蔽效应

在图9-04中的一组曲线分别表示频率为250 Hz、1 kHz、4 kHz和8 kHz纯音的掩蔽效应,它们的声强均为60 dB。从图中可以看到:①在250 Hz、1 kHz、4 kHz和8 kHz纯音附近,对其他纯音的掩蔽效果最明显,②低频纯音可以有效地掩蔽高频纯音,但高频纯音对低频纯音的掩蔽作用则不明显。

图9-04 不同纯音的掩蔽效应曲线

 

由于声音频率与掩蔽曲线不是线性关系,为从感知上来统一度量声音频率,引入了“临界频带(critical band)”的概念。通常认为,在20 Hz到16 kHz范围内有24个临界频带,如表9-01所示。临界频带的单位叫Bark(巴克),

/1000)

以上我们讨论了响度、音高和掩蔽效应,尤其是人的主观感觉。其中掩蔽效应尤为重要,它是心理声学模型的基础。

表9-01 临界频带[16]

临界

频率 (Hz)

临界

频率 (Hz)

频带

低端

高端

宽度

频带

低端

高端

宽度

0

0

100

100

13

2000

2320

320

1

100

200

100

14

2320

2700

380

2

200

300

100

15

2700

3150

450

3

300

400

100

16

3150

3700

550

4

400

510

110

17

3700

4400

700

5

510

630

120

18

4400

5300

900

6

630

770

140

19

5300

6400

1100

7

770

920

150

20

6400

7700

1300

8

920

1080

160

21

7700

9500

1800

9

1080

1270

190

22

9500

12000

2500

10

1270

1480

210

23

12000

15500

3500

11

1480

1720

240

24

15500

22050

6550

12

1720

2000

280

 

 

 

 

2. 时域掩蔽

除了同时发出的声音之间有掩蔽现象之外,在时间上相邻的声音之间也有掩蔽现象,并且称为时域掩蔽。时域掩蔽又分为超前掩蔽(pre-masking)和滞后掩蔽(post-masking),如图9-05所示。产生时域掩蔽的主要原因是人的大脑处理信息需要花费一定的时间。一般来说,超前掩蔽很短,只有大约5~20 ms,而滞后掩蔽可以持续50~200 ms。这个区别也是很容易理解的。

图9-05时域掩蔽