发烧论坛

注册

 

发新话题 回复该主题

关于人类听觉系统是如何对声音的定位进行判断的?(已有的部分结... [复制链接]

1#
人的听觉系统其实是一个非常复杂的系统,虽然目前关于声像定位判断的研究已经进行了几十年,也得到一些很重要的结论,但个人认为,仍然有很多值得研究的地方。

在此,只谈谈关于听觉系统对声音定位的一些已有的结论吧(有些还有待研究)。

首先说明,任何科学研究都是以最简单、最基本的现象作为研究对象的。因此,对于声像定位的研究,最开始就是研究只有一个声源,在空间中移动时,其声音传输到达双耳时是如何变化的,或者说,双耳接收到的信号在不同的声源位置时有什么不同。经过几十年的研究,目前声学界公认的主要结果如下:
1、影响人耳对声音定位的因素主要有2个:双耳时间差ITD(哈斯效应可以归属于这个方面)和双耳声级差ILD。双耳时间差指单个声源到达双耳的相对时间差。同理,双耳声级差指单个声源到达双耳的相对声级差;

2、基本上以1500Hz的频率为分界(但不是绝对的),低于这个频率,ITD对定位逐渐起主要作用,高于这个频率,ILD逐渐起主要作用。7002500Hz之间,ITDILD都有作用;

3、不同大小的人头,对声像定位的判断是不一样的,尤其是中高频。(所以,不要强求别人一定要听到跟你的声像感觉一样的东西)


然后,声学界开始对多声源(发烧友可以理解为多个扬声器)播放同一信号时,人耳的声音定位机理是怎么样的进行了相当多的研究,得到一些比较重要的定理,并由此促进了双通路(如目前广泛使用的双扬声器音响系统)乃至多通路立体声(利于DOLBY 5.1等)的发展。相关主要定理如下:


1、正弦定理:这个定理适应于人的头部不转动的情况。具体的公式就不介绍了,基本意义是:两个扬声器播放同一个信号并保持其相对延时为0,信号同相,则两个扬声器之间区域的声像定位角度(以水平面上的角度为例)可以通过改变两个扬声器的馈给信号的比例来完成,并且声像移动是连续的;

2、正切定理:这个定理适用于人的头部转动的情况,研究的系统的预设状况与正弦定理相同,只是两个扬声器的信号馈给比例有一点点不同。

3、不同的频率,声像定位的角度是不同的,因此,不可能完全重现出真实声源的大小。或者说,声像大小都普遍大于实际声源;

4、以上两个定理都只适用于低于700Hz1.5KHz的情况。幸运的是,目前大部分声音的基频都处于这个频段。

目前的双通路立体声的所有制作技术(包括录音技术)都是基于以上两个原理进行的,没有例外。

至于在两个扬声器之间区域之外的声像营造,则必须通过改变两个扬声器信号的相位、比例来完成。我们实验室(名字在这里就不公布了)在这方面也进行了相当多的研究,并且基本上(注意是基本上)可以用2个扬声器营造出包含±90度(即正左、正右)的声像。另,通过应有HRTF(人头相关传输函数),也可制作出许多虚拟的声音方向,目前很热的关于虚拟现实的研究,声音方面就基本上跟HRTF有关了。

在这里重复一下:科学研究的对象一般都从最简单的问题开始。所以,如果加上环境的干扰,则定位问题就变得非常复杂了,因为环境本身就是一个存在非常多变数的可变条件。所以目前这方面也没有相关的定论。

有趣的是,关于环境对声像影响的研究,目前仅在影响声像的大小(学界简称ASW)方面有比较多的研究,但只对有限的前几次反射声的强弱、强度、方向,对声像大小的影响进行了非常严谨的研究,但还没有得到非常明确的公认的结论。


另外有几个问题估计大家都是很感兴趣的,相关的研究结论如下:
1、关于声像的远近问题:
人对声像远近的认知主要通过环境完成。如果在消声室,没有了环境的影响,人对声像的远近的感觉就不那么明确了,只能通过判断声音的大小,或者是音色的改变(近距离低频会提升)来判断远近,但近多少?远多少?就不能判断准确了。当然,加了环境也不能准确判断远近了多少,但要比在消声室准确很多。所以,通过摆放扬声器的位置来获取相关的声场的感觉是很好的方法(这个在发烧界是大家都知道了);

2、关于人对声像高度的感知问题:
不同的人感觉是不一样的。但明确的是,人耳对水平面的声像位置判断比较准确,但对垂直面(也就是高度)是非常不准确的。因为在水平方向上人有2只耳朵,但在垂直上就只有1只,当然,耳廓的形状对分析高度还是有一定帮助的。

3、录音是否带有足够的空间信息来展现发烧界所经常讨论的声场的宽度和高度?
目前的录音技术,仍然广泛应用M/SA/BORTS等格式的录音技术,这些录音的技术都只能录制水平面的方向信息,是不含高度的方向信息的。那为什么有远近、高低的感觉呢,是因为这些录音都是经过环境的信号处理过程的(比如在实际的厅堂录音,就有厅堂的信息,如果是分轨录音,后期制作也要加入混响处理等,还有很多关于改变比例、改变音色等常规的混音技术处理等),加上人平时的听音经验的积累,就能感觉到了(注意不是真的)。

要注意的是,即使单声道的录音,也录制了从各个方向而来的声音,但这些不同的方向的声音,是混在一起了,不可能分开,也就是说不可能让来自后方的声音,从后方的扬声器播放。要想把方向分开,在录音时必须要使用话筒阵列,比如B-Format制式的话筒(38字型指向话筒装在X/Y/Z轴上,1个全指向话筒装在原点上),只有使用这种立体阵列的话筒,才可能录制包含上下左右的方向信息的声音,并通过特定的解码方式,才能还原不同方向的声音(可以从不同方向播放),达到真正还原空间立体声的目的。但可惜,这种技术由于扬声器系统在家里很难推广,而受到限制。

总的来说,双声道的扬声器系统,是不可能重现(指物理上)来自不同高度方向的声音的。发烧友所感知的不同乐器不同高度的信息,很多是基于本身对声音定位的经验来感觉出来的(但不准确),也是很多后期制作技术的应有,故意营造出来的,给人好像是这样的感觉。



我看到论坛上有很多关于定位的讨论贴,也对各位的热情非常钦佩。本帖的目的只是让各位对声像定位的研究有一个基本的理解。可能有人会问,几十年这么多科学家的研究就只有这几个重要的结论吗?是的。
声学是一门非常复杂的边缘学科。其中牵涉到生理、神经系统、心理、物理、数学等等学科,所以很多声学问题到现在也难以研究透彻。也正是如此,发烧界存在很多伪科学,很多似是而非的所谓结论,每每看到,也只能一笑罢了。
最后编辑auragon 最后编辑于 2009-06-17 13:10:23
分享 转发
TOP
2#

原帖由 艺术用家 于 2009-6-17 14:18:00 发表
请lz就史塔克演奏柯达伊(delos唱片,第5轨)这个实例解释一下为何大提琴在右下,小提琴在左上,请不要说是这两位演奏家的录音分别合成的


抱歉,我并没有这个软件。
我发的那个贴,只是目前关于声音定位研究的其中比较重要的结论,但还有很多研究得到的结论并没有说。比如,人耳对高频定位的感觉,大部分人都觉得要比低频的高,这也是一个有趣的现象。
我们实验室也对声音定位做过许多研究,而且,很多都是按频带区分的方式进行的,比如使用1个倍频程的窄带信号,例如250、500、1000Hz等,也得到许多有趣的结论,比如不同频带的定位位置不一样,全频带的定位要比窄频带的定位更模糊等。
另外,扬声器的结构也会对声音定位产生影响。特别是目前许多非同轴的多分频扬声器,本身不同频段的声音就是由不同位置的扬声器发出的,因此对声音定位在不同频段上有不同位置的感觉(但不能说同轴的就绝对重合)。

人耳对声音的定位机理真的很复杂,我个人认为也不是现在所取得的研究就能完全说明问题,在这里请各位不要钻牛角尖,知道大概的原理就行。
TOP
3#

原帖由 牧神午后 于 2009-6-17 15:09:00 发表
看来要重新审视一下,A3D、SRS这类东西了


有很多不同格式的环绕系统,其实都是利用“听觉错觉”的原理来进行的,目的就是利用人耳的可欺骗性,令人产生虚拟声像的错觉。
TOP
4#

原帖由 艺术用家 于 2009-6-17 22:47:00 发表
不是钻牛角尖,不过是想透过文山字海直达问题的核心而已。大概的原理解释不了定位高低问题,看来是没有答案了。不过左右定位分频段不同这个理论倒是很有意思


嘻嘻,往往问题的核心本身就是一个很难解决的问题。
虽然通过对人耳声音的研究发现很多有趣的结论,但这些结论也只能是一个结论而已,以目前人类的认知能力,还不能有很清晰的解析。
TOP
5#

原帖由 海阳 于 2009-6-17 23:27:00 发表
玩音响最怕的就是想当然而然。如果认为频率高所以听感才觉得高,那真的错得厉害。建议到调整到位的系统听听,小孩,**,男低音,女高音的定位,可以说多数的碟片,都可以听出不同乐器的高度。都可以颠覆频率高所以听感高的论调。


高频率的定位要比低频率的定位普遍上觉得高些,这个结论不是想出来的,是经过大量的实验证明的。我们的实验对象包括经验很丰富的音响师、录音师,也包括很多不懂发烧是什么的学生(尤其是女生)。当然,我指的是大部分。然后,经过科学的统计得到的结果。
TOP
6#

原帖由 海阳 于 2009-6-18 1:40:00 发表
原帖由 远去的村庄 于 2009-6-18 1:19:00 发表
支持楼主的说法,如果录音时可以定高低位地混音的,请做录音的朋友教教我!


我的看法录音时就高低,又何必等混音时再搞,为什么可以肯定说有高低之分,因为早有LEO录测试高低的碟片。不相信的请用用皇帝位这张调整摆位碟试,里面有一首就是试高低位置的,里面的一段人声就是坐着,站着,还有站在


你看这样解析是否可以?象LEO的这种录音一般都是在一个特定的环境录制的(废话),而这个环境我可以肯定不是消声室,因此,发声时的高低不同的位置,如果分别测量的话,其脉冲响应是不同的,也就是说,环境对声音的贡献是不同的。另外,也请注意,高低不同时,声源相对于话筒的指向性也会有不同。总之,就是不同。然后,在聆听时,人自动加上自己的听音经验,就好像感觉不同了。
我没有听过这个软件,但估计LEO的这个软件也是有要求的,我猜应该是对扬声器的位置也有要求。怎么要求我就不知道了,但我想,要听到好的结果(注意是心理上的,不是物理上的),经过摆位后的用家的整个音响系统(房间+扬声器=整个音响系统),在物理特性上应该与LEO的原始环境有些相似(但不是相等)。
我们也做过类似的研究。可以肯定的是,如果在消声室录制这个高低的声音(同样的声源、同样的指向,同样的距离,全指向话筒),在重放时,是比较难区分高低的。
环境的声音对生物的感知有非常重要的作用。有一个很有趣的故事:不知道什么原因,有一天发现有一只猫居然在我们的一个半消声室内呆了一个晚上。打开门让它出去时,感觉它好像站不稳了,一时也找不到方向的感觉。另外,很多从来没有进过消声室的人,进去时100%都说非常不舒服,出来时基本都会说:啊,总算回到真实的世界了!
最后编辑auragon 最后编辑于 2009-06-18 08:35:36
TOP
7#

[quote] 原帖由 海阳 于 2009-6-18 13:06:00 发表

你说的没错,定位过程本身就是心理作用的过程(我也没有说不是),不过,我想解析的是,有很多受试者根本就没有理会频率的高低,只是凭直觉进行声像位置的判断。也就是说,频率的高或低并没有在实验前引导他们,因此实验结果是比较客观的。
回到HI-FI系统,发烧友对声场的要求是没有错的,听到或听不到好的声场,在我看来都没有错,都是客观和主观共同作用的结果。当然,能听到好的声场是很多发烧友的愿望,我的贴只是想告诉大家一些研究的结论而已,信与不信都没有关系的。
TOP
8#

原帖由 szlghyj 于 2009-6-18 11:13:00 发表
玩音响不能找搬书上的理论.


我非常赞同你的观点!!
不仅仅是声学,所有学科的研究,基本上都是理论和实际相结合,并且互相论证的一个过程。只看书的研究不算真正的研究,幸运的是,我们实验室没有人是书呆子,嘻嘻。
还记得,曾经有些比较古板的教授,居然不相信换电源线所带来的音响系统声音的某些可能的改变,我虽然没有挑战他们,但心理确实鄙视了一下。
最后编辑auragon 最后编辑于 2009-06-18 20:54:31
TOP
9#

在自然环 [/quote]

对于真实存在的声源,人耳感知它的高度是基本没有问题的。不过,能否准确说出来就是另外一回事了。人对真实声源的位置感知的精确度,声源位于前半球面时要比后半球面精确,其中,水平面又是最准确的。有空的时候,你可以试试,闭上眼睛,看能否准确说出声源的位置,尤其是后方附近,挺有趣的。

对于利用“听觉错觉”来产生的虚拟声像(现在的2声道系统就是),人耳对垂直高度的感知的精确度就要比真实声源的差多了,但水平面上的差别,相对而言就少些。
TOP
10#

原帖由 我信神话 于 2009-6-18 21:34:00 发表
实践中2声道系统的结像高度感觉还是能形成共识的。

这个是对的,是“听觉错觉”的体现,也是广大发烧友乐此不彼的源泉啊!总之一句话:好玩!!
TOP
11#

原帖由 houwei 于 2009-6-18 21:47:00 发表
我的听感和海阳兄一样,也经常用"皇帝位"试音,我认为二声道是可以再现声音高低的,不是心理作用.有一阵子很迷小提琴奏鸣曲,集中听了好多碟.小提琴手多数都是站着演奏的,所以琴声都要高于钢琴很多.而有一张碟......


可能,我要说多一些实验的前提条件,这样大家都会更了解:使用2扬声器,在同一个预设的位置和方向重现虚拟声像,扬声器信号的分配都是一样的,只不过是不同频段的信号。高频定位比低频要高些的结论,也仅仅是高些而已。

现在很多的录音都使用比较多的话筒,然后在后期花大量的时间和手段来进行缩混,变数太多,跟实验的条件已经完全不同了。

人在心理上会有一个先导作用,有先入为主的感觉。我们在研究声音定位的时候,就做过一个很有趣的实验:我们建立了一个多扬声器的全空间球型的环绕阵列,然后通过数学的方法,将一个虚拟声像绕听众按照某个预定的轨迹做旋转运动,结果是,大部分人都能分辨出声音最后停留的方向,而且比较精确。但换一个方式,声像不运动了,而是静止在最后预留的方向,结果大部分人都觉得声像变模糊了,定位不准确了。这说明,声像运动时,人脑会产生一个与运动相符合的轨迹印象,从而能准确判断出最后声像停留的位置。钢琴是水平放置的,这是发烧友都知道的,是否就会产生一个先导作用呢?这是有可能的,而且,说不定真有人听到钢琴是斜的也不一定。
最后编辑auragon 最后编辑于 2009-06-18 22:20:05
TOP
12#

原帖由 我信神话 于 2009-6-18 21:51:00 发表
录音中有许多自然信息同样会被有意无意地合成进去,音场的三维重建搞得好也许会暗笑可能当初连录音师都未必能感受到。


是啊,有很多听音的感觉都是发烧友发现的。我曾经也跟一些比较有名的录音师交流过,他们都承认这点。所以,有些专门为发烧而制造的音乐,混音时的监听扬声器的位置就开始有些改变了,故意与家里的摆放基本一致,当然,混音控制室的声学环境都是比较好的。

以前只有卡带、手提录音机流行的时代,音乐的高低频都比较夸张,那时的录音师不是没有水平,而是故意的。现在很多汽车音乐的制作也是这样,由于汽车在运动时会产生比较夸张的低频掩蔽效应,所以,这类音乐的低频一般都比较夸张,当然也是故意制作的。
TOP
13#

原帖由 szlghyj 于 2009-6-19 9:26:00 发表
在音响系统里,人耳判断乐器的定位,并不是单纯依靠声音是由那个单元发出来判断的.

对!人的听觉系统真的太复杂了。比如说,人可以在嘈杂的环境中只选取感兴趣的声音聆听,其他就自动抑制了,这个自适应的过滤功能,导致了现在信号处理领域的一个非常热的课题——语音识别,但到目前为止,用科技的能力来进行语音识别,其效果跟人听觉系统比起来,真的太可怜了。
TOP
14#

原帖由 钱在烧 于 2009-6-20 7:52:00 发表
冒似XX味...........理论大于实践,一笑了之


嗯,写这贴的目的是想告诉大家一些关于人对声音定位判断的一些理论上的某些结论,不过这些结论跟普通意义上的数学推导没有任何关系,都是从大量的实验(也就是实践)中总结出来的,一些本质意义上的结论,不是单纯的理论推导,没有脱离实践的。至于是否能指导实践,那要看从什么角度来出发。

还有一个目的,就是希望大家不要、或者少被一些JS、神棍什么的欺骗。
TOP
发新话题 回复该主题