复合波及频谱

任何真实存在的声音,哪怕它只是蛐蛐儿的一声鸣叫,几乎都像是交响乐队的产品,它们似乎都是许多乐器同时演奏的结果。简单的说,一般的声音都等同于大大小小许多音叉各种正弦波合成的声音。它们就是复合波。实际上小提琴、大提琴、黑管、风琴、长笛、小号、定音鼓、钹、钗、沙锤等所以音质不同,就是因为它们的复合波的组成不同。

频谱图的纵轴是振幅轴,横轴是频率轴。在频谱图上一根根竖立的直线代表许多正弦波,它们站在自己的频率位置上,它们耸立的高度表示它的振幅或能量。它们组成齿尖极不整齐的梳子状。那种竖直线构成的是离散谱

离散谱上竖直线顶端连接起来组成的包络线构成了连续谱。连续谱上的鼓峰被称为共振峰。那些鼓峰表明,相应频段的能量比较强。那种能量的频率分布方式决定了音质

频谱图上的竖直线分别代表许多正弦成分波,复合波是它们用“代数和”方式相加得到的复杂的曲线。把那种复合波画出来可以用计算机来帮助。把复合波分析成那些正弦成分,需要使用傅利叶变换的计算方法。所谓FFT就是计算机快速傅利叶变换的计算方法。复合波很真实,但是频谱图更简明扼要,更能说明音质问题。

正弦波叠加的时候它们之间有一个时间上彼此如何对齐的问题,也就是说它们它们都有一个相位问题。离散谱相同而每个正弦波的相位错落不齐,得到的复合波可能不同,或者说波形不同,但是音质不变。

人耳接收到声音后用耳蜗里的听觉分析器来处理它。耳蜗里柯替氏分析器的基底膜上有数万个毛细胞排成四排,每个毛细胞上方有数十根毛纤维,耳蜗里的淋巴液跟声音共振使基底膜上不同部位发生挠动,毛细胞似乎能按频率顺序在20 ~ 20000 Hz的范围内检测到复合波的组成方式,然后分别用并列的听觉神经纤维把检测结果送到大脑去。有意思的是,某些昆虫是靠体表上的毛来接收声音的。那种相似性大概可以用基因来说明吧。

频谱图是短时间声音信号分析的结果。所谓一帧分析范围,常取……641285121024……2的整指数倍的时间点。帧长数值越大频率分辨率越高,但是时间分辨率越低;数值过小还会使低频成分丢失。最小的帧长至少应该包含乐音的一个基波。帧长大的,频率范围分解出较多区段,因此频率分辨率较高,但是帧长大又使时间段模糊起来了。(参见图片17语图部分的说明。)

频谱图的纵轴可以是振幅轴,也可以是分贝轴。仪器分析中所谓振幅轴实际上都是用电压(vmvμv)值说明的。分贝轴使用得更普遍,它有它的方便之处。

就像分米(dm)跟米(m)的关系一样,分贝dB)是贝尔Bel)的分一级单位,d是表示十分之一的符号。分贝是分级单位,所以1 Bel就是10 dB15 Bel就是150 dB

这里说的贝尔实际上是指能量的数量级。例如假设10 w(瓦特)是1 Bel,那么100100010000 w就是234 Bel。同样10.10.010.001 w就是0-1-2-3 Bel。使用对数很容易从瓦特的倍数关系来换算贝尔数。贝尔和分贝的换算式:

能量级 = logE÷E0) (Bel

声强级 = 10 logI÷I0 dB

声功率级 = 10 logW÷W 0 dB

声压级 = 20 logP÷P0 dB

式中用0标注的是参考值。当把参考值P0定为0.000 02 Pa(帕)时得到的是绝对声压级。相应的声功率级参考值W010-12 w(瓦),声强级参考值I010-12 w/m2(瓦/2)。

0.000 02 Pa是人耳刚刚可以听见的1000 Hz纯音的最小声压。人耳可以忍受的最大声压是它的1 000 000倍。相应的最小和最大的声功率值有1012倍的关系。用分贝表示的那种关系都是0 dB ~ 120 dB的关系。

用分贝数表示声强比较方便,也接近人对声强变化的感受。收音机音量旋钮转动角度的大小大致跟分贝值成正比,因此我们不妨可以去试一试,去感受它一下。假设旋钮顺时针方向拧动10°10 dB的增益、10倍功率,那么,20°20 dB的增益、100倍功率,30°30 dB的增益、1000倍功率;因为有每10°10 dB增益的假设,因此旋钮转到90°左右的时候千万要注意保护听力了!从最小到最大120°是它的极限,120 dB的增益意味着耳鼓承受到一万亿倍的功率变化或一百万倍的声压变化。(每20 dB的增益声压增大10倍。)无论是大功率的音响设备还是小巧的随身听,音量过大都会造成听力损失。因为音响系统或仪器的功率范围都是是有限的,任何环节音量调节失当都可能使信号发生畸变失真

另外,跟电学知识一样,声功率与声压的平方成正比,因此在表示声压级的对数算式里系数不是10,而是20。对于语音学研究来说,声强级和声压级的等公式计算得到的分贝值是一致的,没有实质上的差别。此外,3 dB -3 dB是很常见的量值:3 dB表示功率增加到原来的两倍;-3 dB表示功率减少到原来的一半。

语音学中常用相对的分贝值。例如声音甲定为参考值,以它为准取0 dB,声音乙是甲声强的100倍就用20 dB来表示,声音丙是甲声强的1/10000就用 -40 dB来表示。注意,这时候我们没有用专门的精确仪器具体测量它们的声压到底是多少Pa或者声功率到底是多少w,只是去精确计算相对的倍数关系。计算倍数关系容易多了,它可以用信号的电压变化来换算(参见声压级公式)。

注意,声音丁为30 dB时,它与声音乙20 dB的关系只能用分贝差数来说明,丁比乙大 30 dB - 20 dB = 10 dB (10倍功率)。有人写学位论文竟然计算出它们有*30 dB÷20 dB = 1.5倍的关系来,那是错误的表述方法。说乙比甲 0 dB20 dB (100倍功率),说乙比丙-40 dB60 dB (1 000 000倍功率) 都是正确的,而 *20 dB÷0 dB*20 dB÷(-40 dB) 很明显都是毫无意义的。问题在 BeldB不是物理量单位,而是一种表示数量级的特殊符号,它们的差数跟功率的倍数有简单的数学换算关系。

在语音研究中计算振幅曲线包络的面积也有同样的问题。当振幅曲线图解用分贝做纵轴的时候,简单地计算它们的面积是没有意义的,或者说是错误的。

请注意图片4右下角分贝图中竖直线的颜色。红色段长的示意权重,它们从上到下权重权轻不一样。而且还要注意,那个底线不是寂静的位置。同样,0 dB也不是寂静,而且,底线并非一定是 0 dB