心理声学(Psychoacoustic Facts and Models )第一章-USB迷|专注于互联网分享

2024年5月12日发(作者：巫马杰)

心理声学：事实和模型

第一章刺激和过程

在这一章中，简要回顾了声音的光谱特性和时间之间一些基本的相关性。对扬声器和

耳机将电信号转换成声音进行了阐述。此外，还提到一些心理物理学方法和程序。最后，

对刺激和一般听觉感受之间的关系和心理声学中的原始数据的处理进行了讨论。

1.1声音的时间和频谱特性

在心理声学经常使用的声音的一些时间和频谱特性如图1.1。声音很容易通过声压随时

间的变化P（t）进行描述。和大气压力的大小相比，声源所造成的声压的时空变化是非常

小的。声压的单位是帕斯卡（Pa）。在心理声学中，经常涉及声压值10

-5

帕（绝对阈值）

到10

帕（痛阈）。为了解决涉及范围很大的量值的处理，通常使用声压级L，声压和声压

级有关方程

)dB

（1.1）

L20log(

式中，基准声压

20



。

除了声压和声压级，声强I和声强级在心理声学中也很重要。在平面行波，声压级及

声强级相关方程如下：

)10log()dB

（1.2）

L20log(

式中，基准声级

10

-12

W/m

。

特别是在处理噪声时，与直接使用声强相比，使用声强密度更方便。例如，虽然定义

不是很确切，但“1 Hz带宽的声音强度”也可用来表达“噪声功率密度”。对声强密度取

对数即为声强密度级，通常缩短密度级

。对于密度级与频率无关的白噪声，L和L相关方

程如下：

L[l10log(f/Hz)]dB

（1.3）

其中，

f

表示赫兹（Hz）衡量问题的声音带宽。

图1.1 心理声学常用刺激的时间功能和相关的频谱

在图1.1中，图“1-KHz tone”显示了连续正弦振荡的声压p的时间函数，和1ms

时间内的最大值，对应频谱只用一个中心频率1 kHz时的谱线。

“beats” 图是最容易解释的谱域，显示了两个振幅相同的纯音的组合。相应的时间

功能清楚地显示一个包络的强烈变化。

“AM tone” 图，描绘了一个正弦调幅中心频率为2 kHz的音调的时间功能和频谱。

时间函数显示随调制频率变化的包络的正弦振荡。相应的频谱说明，一个调幅音调需要三

条线来描述。水平的差异，ΔL，一方面在2kHz之间的中线，要么较低或其他上侧线，都

涉及到调制，M的程度，由方程

L20log(m/2)]dB

（1.4）

6ms期间的包络波动表明，对应的调制频率为167赫兹，在谱域中，上部和下部线路

与中心线之间的频率差，称为载波。

“音频脉冲”图显示纯音的时间函数和频谱，即固定间隔矩形门。音频率是2KHz，

选通间隔为6 ms。在谱域，线之间的间距对应的选通频率为167Hz。

“直流脉冲”图显示了类似的情况。只是在这种情况下，是一个直流电压，而不是一

个周期的纯音门控。直流脉冲的持续时间是1ms，间隔为8ms。相应的频谱显示，8毫

秒的倒数分离线，即125 Hz 。在频率对应于1/1ms，2/1ms，3/1ms等时，谱线的幅度

显示不同的最小值。

最后一个例子是产生离散或谱线的“调频”。描述了一个频率为2 kHz音调在

1~3 kHz频率范围内，调制频率为200 Hz的正弦调频。相关频谱的振幅关于2 kHz对称，

并遵循其包络的一个贝塞尔函数。如果调制指数（即频率偏差和调制频率之间的比率）小

到使大多数贝塞尔频谱线消失，那么由此得到的频谱类似于具有一条中心线和两侧线的调

幅音调的频谱。然而，相对于调幅音调，调制指数小的调频音调的侧线相位差为90°。

图1.1中的“短纯音”图是描述一系列连续产生的声音而非谱线的第一个例子。函数

描述了频率2 kHz，宽度2ms的单个短纯音。相应的频谱最大值可达2 kHz，与最小值相

差500 Hz。因此，单个短纯音的频谱相当于音脉冲或直流脉冲的频谱。尽管音脉冲和直流

脉冲产生的是谱线，单个短纯音产生的是一个连续的频谱。

白噪声是产生连续频谱的声音的一个重要例子。在心理声学中，出于实际考虑，白噪

声的带宽通常限制在20 Hz~20 kHz。从图1.1中的“白噪声”图可以看出，频谱密度在

0~20 kHz整个范围不受频率影响。应该提到的是，这适用于长期频谱的白噪声，而瞬时

频谱的白噪声可能会出现一定的频率相关性。白噪声的时间函数的振幅呈现高斯分布。

如果白噪声的带宽受到滤波器的限制，我们可以得到带通噪音。图1.1中“带通噪声”

图是中心频率为1 kHz，带宽为200 Hz的带通噪声的时间函数ΔF的一个典型例子。时间

函数表明，它是没有周期性的单一现象。对于白噪声，带通噪声的规则是，在一个特定的

时刻，振幅只能按一定的概率给出;其概率函数呈现高斯分布。包络波动的速度取决于滤波

器的带宽。第一近似理论，带通噪声的时间函数可以被视为一个1kHz的音调经随机的幅

度（和相位）调制。通常情况下，每秒包络的极大值n可近似等于如下公式

n0.64f.

（1.5）

因此，“有效”的调制频率

mod

与带通噪声带宽

f

，可近似等于如下公式

mod

0.64f.

（1.6）

在带通噪声的带宽为200 Hz时，这意味着包络的极大值平均间距约8ms出现一次。

在图1.1“带通噪声”图中的时间函数表明，这种近似是有效的。

“窄带噪声”图显示讨论了带通噪声的相同功能。然而，在这种情况下，带宽只有

20Hz，包络波动非常缓慢，并且包络极大值的时间间距平均增大到约80ms。时间函数的

变化表明，窄带噪声可以第一近似为一个1 kHz的纯音经过随机调幅。

图的“高斯-直流脉冲”显示了一个高斯状包络的直流脉冲的时间函数和频谱。高斯形

状代表时间包络变化的速度和相关的频谱带宽之间的最佳交换，本图中的带宽和持续时间

所产生的即为一个最小的高斯形状。例如，时间

1ms

是矩形窗函数在相同的声压下在曲

面上截取同样大的面积，即高斯直流脉冲。在这种情况下，持续时间

测量出的声压是最

大声压值的一半以下，正好是0.456倍的最大声压。本例中，在谱域的相应带宽接近500Hz。

图的“高斯形短纯音”显示了一种门控音的时间函数和频谱，由于其时间包络相对陡

峭的斜坡以及其相对狭窄的频谱分布成为心理声学的首选。在图1.1中给出的例子描述的

是一个单一的高斯形音脉冲的情况。如果脉冲以1 Hz的频率重复，并且频谱包络保持不变，

那么将会生成间距为1Hz的线谱。

图1.2 高斯噪声的声压超过一个规定声压的概率归一于其均方根

如上所述，噪声信号不能给出它们的最大振幅，因为高斯噪声振幅按高斯分布变化。

这意味着，只能用概率来表示其声压超过给定值。在图1.2，这个概率作为一个实际的声压

函数，归一于其长期的均方根（RMS）值。实际声压在RMS值以上的概率随实际声压与

RMS的比值的减小而减小。如果一个削波噪声信号可以容忍1％的时间，这意味着一个声

压振幅以2.6倍的RMS值的不失真传输。对于心理声学实验，更严格的限制是必要的，因

为削峰可容忍的只有0.1％的时间。因此，因此，声压超过RMS值的3.4倍无失真传输。

出于实用的目的，这意味着噪声信号的读数与纯音每米要降低10dB，以避免噪声信号的

严重失真。

1.2扬声器和耳机的声音介绍

心理声学实验中，通常通过扬声器或耳机将电磁波转变成声波。在这两种情况下，频

率响应和由传感器产生的非线性失真是非常重要的。图1.3显示的包含低频、中频电动式

扬声器和高频压电喇叭三个扬声器的机壳的频率响应。这个组合体在暗室中进行测量时的

频率响应（

为一倍

时）在35Hz~16kHz范围内是水平的，上下波动不超过±2 dB。在

图3中也给出了频率响应产生的二次失真

（

）和三次失真

（

），但从零点上移了

20dB。

图1.3 在暗室中音箱的频率响应

和频率响应产生的二次失真

（

）和三次失真

（

），上移了20dB。

图1.4 a，b 图（a）一个扬声器在正常客厅（密集）和在暗室（分散的）中的频率

响应，图（b）显示了在客厅中很大频率范围内的频率响应。

在心理声学应用中，只有0.1%或更低的失真系数被允许，对应于60dB的水平差异。

考虑到

平均为85dB，

和

趋向于零，这就意味着，规模使用时相应的失真水平分量

不应超过45dB。在整个频率范围内的结果清楚地绘于图1.3，失真系数很难低于0.1%。

然而，在一个频率范围约150Hz，失真系数平均约为0.3％，，这是一个比较好的扬声器代

表图。

如果声音不是在暗室而是在一个“正常”的房间，如客厅，通过扬声器再现的话，将

会增加其复杂性。房间的频率特性是叠加在扬声器的频率特性上的。图1.4就是一个例子。

在左侧图中的虚线代表在暗室中测量扬声器的频率特性，实线代表在客厅中相同的扬声器

的频率特性。

图 1.4a数据显示，房间的共振明显改变与之相结合的频率响应变得清晰。图1.4b显

示大频率范围的扬声器加上房间的部分频率响应。此图显示出非常尖锐，窄的凹陷处的频

率响应。如果纯音的频率只是在这样的凹陷处轻微变化，那么小的频率变化就转化成一个

大的振幅变化，这会导致清晰可闻的响度差异。

如果声音通过耳机呈现，这些问题大多是可以被克服的。一个优势是，耳机在心理声

学中通常用于表示在感兴趣的频率范围内非常小的非线性失真（小于0.1%或-60dB）。耳

机的频率响应被用来衡量真正的耳朵，因为目前的耦合器可以产生误导的结果。因此，耳

机的频率响在暗室中通过由扬声器或耳机再现的音调的主观响度比较进行测量。在DIN

45619 T.1中描述了此过程的具体细节。由于衡量真正的耳朵时，耳机的频率响应通常在

心理声学中显示一个带通特性，均衡器得到了的发展。耳机和均衡器的结合提供了一个自

由场的等效频率响应，频率响应曲线在± 2 dB的范围内是水平的。为DT 48和TDH 39

耳机开发的自由场均衡器的衰减特性如图1.5。这些衰减特性也说明了各自的耳机的自由场

等效频率响应（DT 48如图a，TDH 39如图b）。此外，给出了为认识包含无源和有源元

件的均衡器的电路图。当均衡器输入1V电压时，均衡器和耳机的结合产生了声压级80dB

的自由场。如果在没有均衡器的情况下使用耳机，那么就必须牢记它们会像带通滤波器一

样改变声音。这意味着，无论是音色和响度都受到很大影响，特别是宽频带的声音。

1.3方法和程序

在下面的部分，将讨论心理声学中经常使用的几种方法。这些方法之间的主要区别是：

它们是专为不同类型的心理声学任务设计的，而且它需要不同的时间到达有关的结果。

调整方法。在此方法中，受控主体是刺激。例如，主体是改变一个纯音直到刚好能被

听到。在另一项实验中，主体可能是改变一个声音的频率直到其尖锐度等于参考音的尖锐

度，或在另一的情况下，直到其尖锐度关于参考音的尖锐度的间距一个八度音程。

跟踪方法。在跟踪方法中，主体也是控制刺激，但和调整方法相比，主体只控制一个

刺激不同方向中一个方向。例如，在测量绝对阈值时，主体通过纯音的“音发声”和“音

无声”按彼此序列排列的方式增加和减少。如果振幅级作为频率的函数绘制，这种方法称

为B'ek'esy跟踪。锯齿形曲线的平均值象征问题中的值。虽然传统的平均过程是由眼睛完

成，但也可以由存储能够逆转并自动计算出相应平均值的计算机实现这一跟踪方法。

幅度估计。在此方法中，在某些维度刺激对应于感知程度分配相应的号码。例如，一

个序列的刺激可以对应于其感知响度分配相应号码。对照号码的比例，可以推断出响度的

比例。此外，以目前的标准它有时是有用的，这就是所谓锚声音。在这种情况下，刺激对

被介绍，每对的第一个刺激保持不变。本标准，或锚，被分配一个数值，比如说100，这

可能代表其响度。相对于此值，第二个声音的响度已被缩小。例如，如果第二个声音是第

一个声音响度的三倍，那么主体响应是号码300，轨道6。除了幅度估计，幅度生产也可

用。在这种情况下，主体是一个数字的比例，而且要通过心理声学程度的比例（如响度）

对应实验者提供的数字的方式调整第二个刺激。

到目前为止，所有的心理物理学方法讨论的共同点就是阈值或比例的最终值可以通过

单一实验推断得到。首先两种方法的描述是，主体通过控制刺激积极参与任务。有时这样

的活动可能会产生偏差，例如响度比较。在这种情况下，平均两次测量中，一个不同的声

音“A”和另一种结果不同声音的“B”产生了重要性的价值。

在下列方法中，重要性的价值通常是由主体反应通过心理功能推断出来的。

是-否程序。在此方法中，主体是决定一个信号存在与否。一个信号发生与否肯定只有

一个间隔。这意味着，这一程序是“一二间隔替代被迫选择程序”，因为这个问题是不允许

回答：“我不知道一个信号是否出现”，而是必须决定“是”或“否”。

两区间强制选择。在此过程中，主体是在两个区间出现，必须决定信号是发生在第一

区间还是第二区间。有时三或四个区间被用到，主体的任务是决定在哪个区间声音的某些

品质是不同的，比如说响度或尖锐度。这些程序，经常给予反馈。这意味着，每次试验后

主体要通报正确的答案，通常明确指示一个载有信号的区间。

自适应程序。而在经典的强制选择程序中是通过实验者选择刺激出现，在自适应程序

中试验中刺激的出现取决于前面的试验所给出的结果。这些程序也被称为“上下”程序。

例如，如果在自适应程序中测量绝对阈值，那么声压将会理所当然的降低，以至于主体听

不到刺激。然后，声压上升直到主体可以清楚地听到刺激，之后再次使之降低。步长随着

循环次数减小。当达到一个预定的小步大小，可以通过最后几个循环的平均准确的计算出

最终步长的半步长。这意味着自适应程序表现出和跟踪方法一定的相似性，因为它们最终

值的产生没有明确的心理功能的使用。

刺激对比较。如果由刺激不同方面的变化来评估刺激变化的影响，那么刺激对比较的

方法已被使用。在此方法中，刺激对AB在一方面上是不同的，比如说响度，同样刺激对

CD在另一方面是不同的，比如说尖锐度。主体的任务是决定是否第一个刺激对AB之间的

感知差异要比的第二个刺激对CD之间的差异更大。从这种类型的实验中，刺激在不同方

面的均等变化可以被推断出来。轨道7。

心理声学实验中的结果通常取决于所采用的程序。一门学科的敏感性增强一个规则是，

如果几种选择之间有比较的可能性，则它的敏感性就会增强。从不同的程序的测量时间和

效率来说，像调整，跟踪或幅度估计这些直接产生一个估计的方法，是非常有时间效率的。

然而，那些需要一个心理功能的程序如“是-否”和“多重替代强制选择”程序，它需要很

多试验和很长的时间去得到稳定的结果。自适应程序，所需的时间得到一个有意义的心理

声学数据所需的时间很大程度上取决于所执行的算法的细节。最后一步大小之间找到一个

折中考虑和必要的试验次数，因为更高的精度，即较小的步骤大小，与大量的试验。为了

得到更高的精度，最终步长和必要的试验次数之间的联系被发现，即步长越小，试验次数

越多。

1.4刺激，感觉，和数据平均

在本节中，将评估刺激的物理描述和这些刺激所引起的听觉感受之间的联系。刺激的

步长和感觉的步长之间的比较，感觉的阀值、比率的概念和感觉的等式将得到处理。一个

可以处理感觉和一个或相同的刺激之间不同转换的非线性关系的数据平均过程被提出。

心理声学中最重要的物理量就是声压的时间函数。刺激可以用声压级，频率，持续时

间等物理手段描述。上述物理量和心理学物理量响度、尖锐度、主观持续时间这些所谓听

觉感受相关。无论如何，应该提到的是纯音的尖锐度不仅取决于其频率，一定程度上也取

决于其等级。然而，听觉尖锐度主要与刺激量的频率相关。如果它们的物理量在听觉器官

相关的范围内，物理刺激才会产生听觉感知。例如，频率低于20Hz高于20kHz时，不论

其刺激的幅度多大，都不会有听觉感知。正如我们可以描述刺激的一个单独的物理特性一

样，所以我们也可以考虑将一些听觉感知分开描述。例如，我们可以说“尖锐度高的声音

要比尖锐度低的声音的响度大”。这意味着我们可以通过“响度”或“尖锐度”单独描述听

觉感知。心理声学的一个主要目标是将刺激量转化成一个感知量。例如，我们可以说一个

频率1 kHz，声压20mPa的音调在听觉感知上产生4sone的响度。“sone”是听觉感知

响度的单位，正如声压的单位“Pa”一样。最重要的是不能混淆的 “Pa”和“dB” 等刺

激量和“sone”等听觉感知量。

刺激的物理量和听觉感知量之间的关系可以通过方程或图形来描述。图1.6就是以刺

激量为横坐标，感知量为纵坐标的一个例子。虽然刺激和感知之间的关系显示出一个连续

的曲线，也应该意识到刺激量的微小变化（比如从

到

），可能不会引起感知量的变化。这

是因为从

到

的变化可能在步长

B

之内，而只有步长大于

B

时所产生的听觉感知的不

同才能被听出来。因此，在图1.6中，

B

可能代表能够引起感知量不同的刺激量的最小变

化。如果刺激量从从

增大到

），感知量反映出明显的变化，那是因为所引起的感知量

的变化刚好大于感知的最小步长

B

。步长

A

的刺激，导致听觉感知的不同，

B

，是典型

的心理声学任务，这就是所谓的“差异阀值”或“阀值”。

图1.6 感知量相对于刺激量的范例

图1.7 阈值测定，即刺激幅度（或刺激增量），相应的感觉或感觉增量是有50%的概

率发声。

阈值的一个极端的例子是绝对阀值，即纯音刚好发出声音的水平。阈值不是在所有时

间都固定不变的，但有些要看情况。因此，一定的刺激会导致刚刚感受到的听觉感受只有

一个概率。这个推理如图1.7所示。刺激的幅度和感知的幅度在垂直方向都增加。然而，

阈值以下的刺激不引起感知。在图 1.7的右侧图，给出了不同的刺激产生感知的概率。传

统的阈值选择对应的概率为0.5。这意味着，50%的试验中，“阀值”的刺激引起了感知，

而在其他50％的试验，没有感知产生。它是一项主体比较容易确定阀值的规则。

图1.8 均等测定，即刺激幅度与相比较的感知有50%的概率产生相应的感知

有些更复杂的任务，主体是平等的分配声音。图1.8是解释这项任务的例子。声音2

与声音1的响度比较。考虑到感知程度，它是明确的，如果声音1和声音2标志在同一位

置高度很明显会得到相同的响度。右侧图表示主体反映“声音2更大”与声音2刺激程度

的相关概率。虽然任务的平均分配比“阀值”要更表面一点儿，但作为主体的平均报告的

规则是没有困难的。

一个更复杂的任务是主体感觉产生的比率。在图1.9中，是认为感知程度应减半的一

个例子。垂直箭头所示的是声音1和声音2的感知程度。以声音1的感知幅度为起点，声

音1产生一半的感知幅度的改变必然引起声音2所产生的感知幅度的值。图1.9的右侧图

显示，主体感知由声音2产生的感知幅度大于由声音1产生的感知幅度的刺激程度概率。

同样，概率0.5被定义为代表所要求比例的一半。

图1.9 “半”感知幅度比例的定义，即刺激的幅度产生的感知（例如，响度），为相比

较的感知的一半的概率为50%。

由于同一人在不同的试验（个体内差异）中的结果，以及从不同的主体（个体间的差

异）产生的结果有很大的差别，最好是执行几个相同类型的实验运行，然后取平均数据。

这意味着，在实验后要计算大量可用的数据点的平均值。平均过程的单位选择在刺激幅度

测定（如等级，声压，或声强）中起着至关重要的作用。图1.10给出了显示8个主体的绝

对阀值的一个例子。在上部，相对于声强

I/I

给出了各自的阀值点。这8个数据点的算术

平均数，几何平均数，和中位数如箭头所示。

个数据点的算术平均数计算如下

x



x

（1.7）

而几何平均数为

x

x

（1.8）

中位数只是将数据点分成两个相等的部分，即

n/2

个数据点在中位数左边，

n/2

个数据

点在中位数右边。四等分包括所有数据点的50%，这意味着25％的数据是在四等分位范

围外的左边和25%在右边。

当强度

I/I

的比例转化为级

时，将产生图 1.10的下部。例如，声强100对应声压级

为20dB，声强2对应声压级为3dB等等。由于转化的尺度不同，图1.10的上部与下部中

点的排列不同。

在上部图中，算术在平均数第六和第七个数据点之间，但在下部图中却在第五和第六

个数据点之间。关于几何平均数，在上部图中位于第五和第六个数据点之间，而在下部图

中位于第三和第四个数据点之间。适当的刺激规模适用于描述没有一个先验明确的心理声

学数据。因此最好是用中位数的平均，因为跟算术平均数或几何平均数相反，中位数不随

刺激规模的转换而变化的。

图1.10 示例绘制了8个阈值沿

I/I

的平均线性幅度（上图），或沿

的平均对数幅度

（下图）。

在不同的度量范畴内，只有中位数和四分间距保持其相对数据点的位置不变；而算术，

甚至几何平均数则不会。

2024年5月12日发(作者：巫马杰)

心理声学：事实和模型

第一章刺激和过程

在这一章中，简要回顾了声音的光谱特性和时间之间一些基本的相关性。对扬声器和

耳机将电信号转换成声音进行了阐述。此外，还提到一些心理物理学方法和程序。最后，

对刺激和一般听觉感受之间的关系和心理声学中的原始数据的处理进行了讨论。

1.1声音的时间和频谱特性

在心理声学经常使用的声音的一些时间和频谱特性如图1.1。声音很容易通过声压随时

间的变化P（t）进行描述。和大气压力的大小相比，声源所造成的声压的时空变化是非常

小的。声压的单位是帕斯卡（Pa）。在心理声学中，经常涉及声压值10

-5

帕（绝对阈值）

到10

帕（痛阈）。为了解决涉及范围很大的量值的处理，通常使用声压级L，声压和声压

级有关方程

)dB

（1.1）

L20log(

式中，基准声压

20



。

除了声压和声压级，声强I和声强级在心理声学中也很重要。在平面行波，声压级及

声强级相关方程如下：

)10log()dB

（1.2）

L20log(

式中，基准声级

10

-12

W/m

。

特别是在处理噪声时，与直接使用声强相比，使用声强密度更方便。例如，虽然定义

不是很确切，但“1 Hz带宽的声音强度”也可用来表达“噪声功率密度”。对声强密度取

对数即为声强密度级，通常缩短密度级

。对于密度级与频率无关的白噪声，L和L相关方

程如下：

L[l10log(f/Hz)]dB

（1.3）

其中，

f

表示赫兹（Hz）衡量问题的声音带宽。

图1.1 心理声学常用刺激的时间功能和相关的频谱

在图1.1中，图“1-KHz tone”显示了连续正弦振荡的声压p的时间函数，和1ms

时间内的最大值，对应频谱只用一个中心频率1 kHz时的谱线。

“beats” 图是最容易解释的谱域，显示了两个振幅相同的纯音的组合。相应的时间

功能清楚地显示一个包络的强烈变化。

“AM tone” 图，描绘了一个正弦调幅中心频率为2 kHz的音调的时间功能和频谱。

时间函数显示随调制频率变化的包络的正弦振荡。相应的频谱说明，一个调幅音调需要三

条线来描述。水平的差异，ΔL，一方面在2kHz之间的中线，要么较低或其他上侧线，都

涉及到调制，M的程度，由方程

L20log(m/2)]dB

（1.4）

6ms期间的包络波动表明，对应的调制频率为167赫兹，在谱域中，上部和下部线路

与中心线之间的频率差，称为载波。

“音频脉冲”图显示纯音的时间函数和频谱，即固定间隔矩形门。音频率是2KHz，

选通间隔为6 ms。在谱域，线之间的间距对应的选通频率为167Hz。

“直流脉冲”图显示了类似的情况。只是在这种情况下，是一个直流电压，而不是一

个周期的纯音门控。直流脉冲的持续时间是1ms，间隔为8ms。相应的频谱显示，8毫

秒的倒数分离线，即125 Hz 。在频率对应于1/1ms，2/1ms，3/1ms等时，谱线的幅度

显示不同的最小值。

最后一个例子是产生离散或谱线的“调频”。描述了一个频率为2 kHz音调在

1~3 kHz频率范围内，调制频率为200 Hz的正弦调频。相关频谱的振幅关于2 kHz对称，

并遵循其包络的一个贝塞尔函数。如果调制指数（即频率偏差和调制频率之间的比率）小

到使大多数贝塞尔频谱线消失，那么由此得到的频谱类似于具有一条中心线和两侧线的调

幅音调的频谱。然而，相对于调幅音调，调制指数小的调频音调的侧线相位差为90°。

图1.1中的“短纯音”图是描述一系列连续产生的声音而非谱线的第一个例子。函数

描述了频率2 kHz，宽度2ms的单个短纯音。相应的频谱最大值可达2 kHz，与最小值相

差500 Hz。因此，单个短纯音的频谱相当于音脉冲或直流脉冲的频谱。尽管音脉冲和直流

脉冲产生的是谱线，单个短纯音产生的是一个连续的频谱。

白噪声是产生连续频谱的声音的一个重要例子。在心理声学中，出于实际考虑，白噪

声的带宽通常限制在20 Hz~20 kHz。从图1.1中的“白噪声”图可以看出，频谱密度在

0~20 kHz整个范围不受频率影响。应该提到的是，这适用于长期频谱的白噪声，而瞬时

频谱的白噪声可能会出现一定的频率相关性。白噪声的时间函数的振幅呈现高斯分布。

如果白噪声的带宽受到滤波器的限制，我们可以得到带通噪音。图1.1中“带通噪声”

图是中心频率为1 kHz，带宽为200 Hz的带通噪声的时间函数ΔF的一个典型例子。时间

函数表明，它是没有周期性的单一现象。对于白噪声，带通噪声的规则是，在一个特定的

时刻，振幅只能按一定的概率给出;其概率函数呈现高斯分布。包络波动的速度取决于滤波

器的带宽。第一近似理论，带通噪声的时间函数可以被视为一个1kHz的音调经随机的幅

度（和相位）调制。通常情况下，每秒包络的极大值n可近似等于如下公式

n0.64f.

（1.5）

因此，“有效”的调制频率

mod

与带通噪声带宽

f

，可近似等于如下公式

mod

0.64f.

（1.6）

在带通噪声的带宽为200 Hz时，这意味着包络的极大值平均间距约8ms出现一次。

在图1.1“带通噪声”图中的时间函数表明，这种近似是有效的。

“窄带噪声”图显示讨论了带通噪声的相同功能。然而，在这种情况下，带宽只有

20Hz，包络波动非常缓慢，并且包络极大值的时间间距平均增大到约80ms。时间函数的

变化表明，窄带噪声可以第一近似为一个1 kHz的纯音经过随机调幅。

图的“高斯-直流脉冲”显示了一个高斯状包络的直流脉冲的时间函数和频谱。高斯形

状代表时间包络变化的速度和相关的频谱带宽之间的最佳交换，本图中的带宽和持续时间

所产生的即为一个最小的高斯形状。例如，时间

1ms

是矩形窗函数在相同的声压下在曲

面上截取同样大的面积，即高斯直流脉冲。在这种情况下，持续时间

测量出的声压是最

大声压值的一半以下，正好是0.456倍的最大声压。本例中，在谱域的相应带宽接近500Hz。

图的“高斯形短纯音”显示了一种门控音的时间函数和频谱，由于其时间包络相对陡

峭的斜坡以及其相对狭窄的频谱分布成为心理声学的首选。在图1.1中给出的例子描述的

是一个单一的高斯形音脉冲的情况。如果脉冲以1 Hz的频率重复，并且频谱包络保持不变，

那么将会生成间距为1Hz的线谱。

图1.2 高斯噪声的声压超过一个规定声压的概率归一于其均方根

如上所述，噪声信号不能给出它们的最大振幅，因为高斯噪声振幅按高斯分布变化。

这意味着，只能用概率来表示其声压超过给定值。在图1.2，这个概率作为一个实际的声压

函数，归一于其长期的均方根（RMS）值。实际声压在RMS值以上的概率随实际声压与

RMS的比值的减小而减小。如果一个削波噪声信号可以容忍1％的时间，这意味着一个声

压振幅以2.6倍的RMS值的不失真传输。对于心理声学实验，更严格的限制是必要的，因

为削峰可容忍的只有0.1％的时间。因此，因此，声压超过RMS值的3.4倍无失真传输。

出于实用的目的，这意味着噪声信号的读数与纯音每米要降低10dB，以避免噪声信号的

严重失真。

1.2扬声器和耳机的声音介绍

心理声学实验中，通常通过扬声器或耳机将电磁波转变成声波。在这两种情况下，频

率响应和由传感器产生的非线性失真是非常重要的。图1.3显示的包含低频、中频电动式

扬声器和高频压电喇叭三个扬声器的机壳的频率响应。这个组合体在暗室中进行测量时的

频率响应（

为一倍

时）在35Hz~16kHz范围内是水平的，上下波动不超过±2 dB。在

图3中也给出了频率响应产生的二次失真

（

）和三次失真

（

），但从零点上移了

20dB。

图1.3 在暗室中音箱的频率响应

和频率响应产生的二次失真

（

）和三次失真

（

），上移了20dB。

图1.4 a，b 图（a）一个扬声器在正常客厅（密集）和在暗室（分散的）中的频率

响应，图（b）显示了在客厅中很大频率范围内的频率响应。

在心理声学应用中，只有0.1%或更低的失真系数被允许，对应于60dB的水平差异。

考虑到

平均为85dB，

和

趋向于零，这就意味着，规模使用时相应的失真水平分量

不应超过45dB。在整个频率范围内的结果清楚地绘于图1.3，失真系数很难低于0.1%。

然而，在一个频率范围约150Hz，失真系数平均约为0.3％，，这是一个比较好的扬声器代

表图。

如果声音不是在暗室而是在一个“正常”的房间，如客厅，通过扬声器再现的话，将

会增加其复杂性。房间的频率特性是叠加在扬声器的频率特性上的。图1.4就是一个例子。

在左侧图中的虚线代表在暗室中测量扬声器的频率特性，实线代表在客厅中相同的扬声器

的频率特性。

图 1.4a数据显示，房间的共振明显改变与之相结合的频率响应变得清晰。图1.4b显

示大频率范围的扬声器加上房间的部分频率响应。此图显示出非常尖锐，窄的凹陷处的频

率响应。如果纯音的频率只是在这样的凹陷处轻微变化，那么小的频率变化就转化成一个

大的振幅变化，这会导致清晰可闻的响度差异。

如果声音通过耳机呈现，这些问题大多是可以被克服的。一个优势是，耳机在心理声

学中通常用于表示在感兴趣的频率范围内非常小的非线性失真（小于0.1%或-60dB）。耳

机的频率响应被用来衡量真正的耳朵，因为目前的耦合器可以产生误导的结果。因此，耳

机的频率响在暗室中通过由扬声器或耳机再现的音调的主观响度比较进行测量。在DIN

45619 T.1中描述了此过程的具体细节。由于衡量真正的耳朵时，耳机的频率响应通常在

心理声学中显示一个带通特性，均衡器得到了的发展。耳机和均衡器的结合提供了一个自

由场的等效频率响应，频率响应曲线在± 2 dB的范围内是水平的。为DT 48和TDH 39

耳机开发的自由场均衡器的衰减特性如图1.5。这些衰减特性也说明了各自的耳机的自由场

等效频率响应（DT 48如图a，TDH 39如图b）。此外，给出了为认识包含无源和有源元

件的均衡器的电路图。当均衡器输入1V电压时，均衡器和耳机的结合产生了声压级80dB

的自由场。如果在没有均衡器的情况下使用耳机，那么就必须牢记它们会像带通滤波器一

样改变声音。这意味着，无论是音色和响度都受到很大影响，特别是宽频带的声音。

1.3方法和程序

在下面的部分，将讨论心理声学中经常使用的几种方法。这些方法之间的主要区别是：

它们是专为不同类型的心理声学任务设计的，而且它需要不同的时间到达有关的结果。

调整方法。在此方法中，受控主体是刺激。例如，主体是改变一个纯音直到刚好能被

听到。在另一项实验中，主体可能是改变一个声音的频率直到其尖锐度等于参考音的尖锐

度，或在另一的情况下，直到其尖锐度关于参考音的尖锐度的间距一个八度音程。

跟踪方法。在跟踪方法中，主体也是控制刺激，但和调整方法相比，主体只控制一个

刺激不同方向中一个方向。例如，在测量绝对阈值时，主体通过纯音的“音发声”和“音

无声”按彼此序列排列的方式增加和减少。如果振幅级作为频率的函数绘制，这种方法称

为B'ek'esy跟踪。锯齿形曲线的平均值象征问题中的值。虽然传统的平均过程是由眼睛完

成，但也可以由存储能够逆转并自动计算出相应平均值的计算机实现这一跟踪方法。

幅度估计。在此方法中，在某些维度刺激对应于感知程度分配相应的号码。例如，一

个序列的刺激可以对应于其感知响度分配相应号码。对照号码的比例，可以推断出响度的

比例。此外，以目前的标准它有时是有用的，这就是所谓锚声音。在这种情况下，刺激对

被介绍，每对的第一个刺激保持不变。本标准，或锚，被分配一个数值，比如说100，这

可能代表其响度。相对于此值，第二个声音的响度已被缩小。例如，如果第二个声音是第

一个声音响度的三倍，那么主体响应是号码300，轨道6。除了幅度估计，幅度生产也可

用。在这种情况下，主体是一个数字的比例，而且要通过心理声学程度的比例（如响度）

对应实验者提供的数字的方式调整第二个刺激。

到目前为止，所有的心理物理学方法讨论的共同点就是阈值或比例的最终值可以通过

单一实验推断得到。首先两种方法的描述是，主体通过控制刺激积极参与任务。有时这样

的活动可能会产生偏差，例如响度比较。在这种情况下，平均两次测量中，一个不同的声

音“A”和另一种结果不同声音的“B”产生了重要性的价值。

在下列方法中，重要性的价值通常是由主体反应通过心理功能推断出来的。

是-否程序。在此方法中，主体是决定一个信号存在与否。一个信号发生与否肯定只有

一个间隔。这意味着，这一程序是“一二间隔替代被迫选择程序”，因为这个问题是不允许

回答：“我不知道一个信号是否出现”，而是必须决定“是”或“否”。

两区间强制选择。在此过程中，主体是在两个区间出现，必须决定信号是发生在第一

区间还是第二区间。有时三或四个区间被用到，主体的任务是决定在哪个区间声音的某些

品质是不同的，比如说响度或尖锐度。这些程序，经常给予反馈。这意味着，每次试验后

主体要通报正确的答案，通常明确指示一个载有信号的区间。

自适应程序。而在经典的强制选择程序中是通过实验者选择刺激出现，在自适应程序

中试验中刺激的出现取决于前面的试验所给出的结果。这些程序也被称为“上下”程序。

例如，如果在自适应程序中测量绝对阈值，那么声压将会理所当然的降低，以至于主体听

不到刺激。然后，声压上升直到主体可以清楚地听到刺激，之后再次使之降低。步长随着

循环次数减小。当达到一个预定的小步大小，可以通过最后几个循环的平均准确的计算出

最终步长的半步长。这意味着自适应程序表现出和跟踪方法一定的相似性，因为它们最终

值的产生没有明确的心理功能的使用。

刺激对比较。如果由刺激不同方面的变化来评估刺激变化的影响，那么刺激对比较的

方法已被使用。在此方法中，刺激对AB在一方面上是不同的，比如说响度，同样刺激对

CD在另一方面是不同的，比如说尖锐度。主体的任务是决定是否第一个刺激对AB之间的

感知差异要比的第二个刺激对CD之间的差异更大。从这种类型的实验中，刺激在不同方

面的均等变化可以被推断出来。轨道7。

心理声学实验中的结果通常取决于所采用的程序。一门学科的敏感性增强一个规则是，

如果几种选择之间有比较的可能性，则它的敏感性就会增强。从不同的程序的测量时间和

效率来说，像调整，跟踪或幅度估计这些直接产生一个估计的方法，是非常有时间效率的。

然而，那些需要一个心理功能的程序如“是-否”和“多重替代强制选择”程序，它需要很

多试验和很长的时间去得到稳定的结果。自适应程序，所需的时间得到一个有意义的心理

声学数据所需的时间很大程度上取决于所执行的算法的细节。最后一步大小之间找到一个

折中考虑和必要的试验次数，因为更高的精度，即较小的步骤大小，与大量的试验。为了

得到更高的精度，最终步长和必要的试验次数之间的联系被发现，即步长越小，试验次数

越多。

1.4刺激，感觉，和数据平均

在本节中，将评估刺激的物理描述和这些刺激所引起的听觉感受之间的联系。刺激的

步长和感觉的步长之间的比较，感觉的阀值、比率的概念和感觉的等式将得到处理。一个

可以处理感觉和一个或相同的刺激之间不同转换的非线性关系的数据平均过程被提出。

心理声学中最重要的物理量就是声压的时间函数。刺激可以用声压级，频率，持续时

间等物理手段描述。上述物理量和心理学物理量响度、尖锐度、主观持续时间这些所谓听

觉感受相关。无论如何，应该提到的是纯音的尖锐度不仅取决于其频率，一定程度上也取

决于其等级。然而，听觉尖锐度主要与刺激量的频率相关。如果它们的物理量在听觉器官

相关的范围内，物理刺激才会产生听觉感知。例如，频率低于20Hz高于20kHz时，不论

其刺激的幅度多大，都不会有听觉感知。正如我们可以描述刺激的一个单独的物理特性一

样，所以我们也可以考虑将一些听觉感知分开描述。例如，我们可以说“尖锐度高的声音

要比尖锐度低的声音的响度大”。这意味着我们可以通过“响度”或“尖锐度”单独描述听

觉感知。心理声学的一个主要目标是将刺激量转化成一个感知量。例如，我们可以说一个

频率1 kHz，声压20mPa的音调在听觉感知上产生4sone的响度。“sone”是听觉感知

响度的单位，正如声压的单位“Pa”一样。最重要的是不能混淆的 “Pa”和“dB” 等刺

激量和“sone”等听觉感知量。

刺激的物理量和听觉感知量之间的关系可以通过方程或图形来描述。图1.6就是以刺

激量为横坐标，感知量为纵坐标的一个例子。虽然刺激和感知之间的关系显示出一个连续

的曲线，也应该意识到刺激量的微小变化（比如从

到

），可能不会引起感知量的变化。这

是因为从

到

的变化可能在步长

B

之内，而只有步长大于

B

时所产生的听觉感知的不

同才能被听出来。因此，在图1.6中，

B

可能代表能够引起感知量不同的刺激量的最小变

化。如果刺激量从从

增大到

），感知量反映出明显的变化，那是因为所引起的感知量

的变化刚好大于感知的最小步长

B

。步长

A

的刺激，导致听觉感知的不同，

B

，是典型

的心理声学任务，这就是所谓的“差异阀值”或“阀值”。

图1.6 感知量相对于刺激量的范例

图1.7 阈值测定，即刺激幅度（或刺激增量），相应的感觉或感觉增量是有50%的概

率发声。

阈值的一个极端的例子是绝对阀值，即纯音刚好发出声音的水平。阈值不是在所有时

间都固定不变的，但有些要看情况。因此，一定的刺激会导致刚刚感受到的听觉感受只有

一个概率。这个推理如图1.7所示。刺激的幅度和感知的幅度在垂直方向都增加。然而，

阈值以下的刺激不引起感知。在图 1.7的右侧图，给出了不同的刺激产生感知的概率。传

统的阈值选择对应的概率为0.5。这意味着，50%的试验中，“阀值”的刺激引起了感知，

而在其他50％的试验，没有感知产生。它是一项主体比较容易确定阀值的规则。

图1.8 均等测定，即刺激幅度与相比较的感知有50%的概率产生相应的感知

有些更复杂的任务，主体是平等的分配声音。图1.8是解释这项任务的例子。声音2

与声音1的响度比较。考虑到感知程度，它是明确的，如果声音1和声音2标志在同一位

置高度很明显会得到相同的响度。右侧图表示主体反映“声音2更大”与声音2刺激程度

的相关概率。虽然任务的平均分配比“阀值”要更表面一点儿，但作为主体的平均报告的

规则是没有困难的。

一个更复杂的任务是主体感觉产生的比率。在图1.9中，是认为感知程度应减半的一

个例子。垂直箭头所示的是声音1和声音2的感知程度。以声音1的感知幅度为起点，声

音1产生一半的感知幅度的改变必然引起声音2所产生的感知幅度的值。图1.9的右侧图

显示，主体感知由声音2产生的感知幅度大于由声音1产生的感知幅度的刺激程度概率。

同样，概率0.5被定义为代表所要求比例的一半。

图1.9 “半”感知幅度比例的定义，即刺激的幅度产生的感知（例如，响度），为相比

较的感知的一半的概率为50%。

由于同一人在不同的试验（个体内差异）中的结果，以及从不同的主体（个体间的差

异）产生的结果有很大的差别，最好是执行几个相同类型的实验运行，然后取平均数据。

这意味着，在实验后要计算大量可用的数据点的平均值。平均过程的单位选择在刺激幅度

测定（如等级，声压，或声强）中起着至关重要的作用。图1.10给出了显示8个主体的绝

对阀值的一个例子。在上部，相对于声强

I/I

给出了各自的阀值点。这8个数据点的算术

平均数，几何平均数，和中位数如箭头所示。

个数据点的算术平均数计算如下

x



x

（1.7）

而几何平均数为

x

x

（1.8）

中位数只是将数据点分成两个相等的部分，即

n/2

个数据点在中位数左边，

n/2

个数据

点在中位数右边。四等分包括所有数据点的50%，这意味着25％的数据是在四等分位范

围外的左边和25%在右边。

当强度

I/I

的比例转化为级

时，将产生图 1.10的下部。例如，声强100对应声压级

为20dB，声强2对应声压级为3dB等等。由于转化的尺度不同，图1.10的上部与下部中

点的排列不同。

在上部图中，算术在平均数第六和第七个数据点之间，但在下部图中却在第五和第六

个数据点之间。关于几何平均数，在上部图中位于第五和第六个数据点之间，而在下部图

中位于第三和第四个数据点之间。适当的刺激规模适用于描述没有一个先验明确的心理声

学数据。因此最好是用中位数的平均，因为跟算术平均数或几何平均数相反，中位数不随

刺激规模的转换而变化的。

图1.10 示例绘制了8个阈值沿

I/I

的平均线性幅度（上图），或沿

的平均对数幅度

（下图）。

在不同的度量范畴内，只有中位数和四分间距保持其相对数据点的位置不变；而算术，

甚至几何平均数则不会。

USB迷 | 专注于互联网分享

心理声学(Psychoacoustic Facts and Models )第一章

与本文相关的文章

评论列表 (0)