《[转载]论数字音频》
发表日期:2003年7月13日 出处:www.audio100.com 作者:雨田 已经有449位读者读过此文
数字声频的序幕是从1971年开始的。然而当时数字录音并没有被人们完全接受。一般认为,数字是在时间上离散的,不可能将原来声音完全复原。这种想法根深蒂固。并且,在唱片录制者方面,特别是录音导演中间,也有不能无条件接受数字录音的人。通常,声频信号的物理量是以信号的强弱和信号的频率成分表示的。系统的特性,是根据其中信号的强弱幅度,即动态范围,和频带即频率范围来表征的。如将动态范围和频率范围的乘积作为系统的信息量,那么,扩大动态和频率的范围就与系统的特性改善有关。
现代电路技术已使声频系统所必需的频率能够得到充分保证。现在声频系统和动态范围声源的动态范围在100dB以上,但声频系统中各种设备的动态范围却不十分理想。特别是目前使用的模拟系统中的磁带录音机的动态范围最差,成为声频系统中最薄弱环节。但数字磁带录音机的动态范围当量化为16bit时,理论上可达到98dB,实际的数字录音机也据有92-93dB左右的动态范围。对当时的数字声音,录音导演至少有如下的不良评价,即:声音干硬;声音缺乏深度感。
许多人将模拟和数字的音色简单比喻成暖色和冷色。在解决编辑问题的同时,改善数字声音的音质也是迟早必须解决的问题。那么,所谓"干硬"的物理现象是什么呢?
1) 听觉上的过渡特性(transient)与模拟声音相比较非常好,所以声音轮廓听得很清楚。
2) 高声频段的动态范围远比模拟声音大,因此,与并行录音的模拟录音相比,高声频段的声能强,听起来高频声音比较响。
3) 由于完全没有人们已熟悉的磁带咝声,所以,有些像从很安静的地方突然冒出声音的感觉,因此,人们从心理上有些接受不了。
以上这些理由还不够,在录制现场,我们对数字录音的印象是远比模拟录音传送的信息量大,不论怎样细微的声音都能清晰真实地记录到磁带上。这种清晰感和干硬感有时很难区别。并且,无论怎样优秀的录音机,能将调音台输出放大器的声音100%无变形地记录下来的还不存在。而问题就是这种变形的形式模拟与数字不同。所以,比较模拟录音和数字录音时,就自然会得出数字声音干硬的结论。
用数字声频系统来放音,最后进入人耳被听到的仍然是和以往一样的模拟声频信号。对于音质问题,一般仍按与模拟系统相同的思考方法增加一些内容来进行讨论。但是,在以下几方面,则需要补充几点与目前音质理论稍有不同的见解。第一,由于数字系统是与模拟系统以不同的方式进行信号处理、传输的,因此,噪声等故障发生的机理具有本质的不同。在改善音质以及减少故障方面乃至一般的系统设计上的思考方法,必须注意数字系统的特点。第二,一个模拟与数字系统共有的,而不是数字化本身特有的问题就是:当讨论高质量声音时,经常会遇到声音好坏的判定因人而异等问题,中、低质量声音则要面对立场不同的许多问题。既然数字化最大的优点在于高质量化,就以上问题都是很深奥的,没到达能给出明确结论的阶段。
在数字化使声音高质量化的同时,人们原以为由录音机、放大器等器件种类不同所造成的音质差别会显著减小,但和预期相反,本质的差别仍然存在,而且在数字声频普及的过渡阶段,有关人员和爱好者的印象并不都是"声音好听了"。
随着硬件方面设计技术的进步,以及软件方面的适合于数字化的始音和制作方法的进步,这一问题正在相继得到改善。这种说法是基于以下三点:
1) 电路设计和系统设计本身还会改善的余地,还未充分发挥出物理方面的潜在性能。 A/D、D/A转换部分的特性尤为重要。在过渡时期,有些设备虽然规定上定为16bit,但实际的特性与应有的特性相距甚远。由于设计技术的进步,采用了一些新的方法,使系统的特性进一步得到提高。例如,将18bit的 D/A转换器用于16bit系统,或将 D/A转换器并联使用以改善小振幅信号的 SN比的方法;将模拟滤波器与数字滤波器联合使用,从而改善低通滤波器的高频特性和相位特性的方法,等等。从本质上说,数字系统最重要的是小振幅信号的信噪比和失真特性。对于在模拟系统中重视无信号时的噪声以及大振幅信号时的非线性失真的观念必须予以更新。作为改善小信号特性的方法,除上面所述的之外,作为基本方法,还可以叠加高频脉动信号。
2) 软件方面在拾音、制作方法上还有改善的余地,没有充分发挥出数字系统的优势。在模拟系统时,要考虑到在记录系统、传输系统中情噪比和频率特性、相位特性有某种程度的变坏,制作时应使整体上得到所需的重放效果。假如将这种方法套用到数字系统,会得到只是特性变坏少一些、但过分清晰的声音,当看法不同时,还可能会得出"硬"或者"冷冰冰"的印象。而且,由于细节能被清楚地表现出来,在有些场合下,模拟系统中不太引人注意的靠近传声器拾音造成的声音不自然,或附加的回声和混响所造成的不自然,或者在多传声器拾音中容易发生的那种"声音像在-个平面上,缺乏深度感"的效果,在数字系统中有可能会被强调,在数字制作的初期阶段,是暴露问题和积累经验的过程,因此有些制成的节目就存在着上面所述的问题,没有将数字系统的特性完全 体现出来。这些问题由于拾音、制作经验的积累,正逐渐得到解决。
3) 判断音质好坏的基准因人而异,但数字声频音质的评价问题,以及模拟与数字声频音质的比较问题,有时更加复杂。举一个例子来看,关于 D/A转换器后面所用的低通滤波器的频率特性,一般认为通带内平坦是最理想的。但也有人认为,通带内的起伏所引起的响应,可使声场感更加丰富。假如我们将这个观点应用到 CD唱机的设计上,如果认为 CD唱机应该忠实地重放出所录的声源节目,那么当然不希望频响有起伏。另一方面,如果认为 CD唱机应该是一个能产生使听音者喜好的、能增加一定程度染色效果的装置的话,那 么,对于"喜欢起伏引起的响应"听音者来说,会认为频响含有起伏的系统是好的系统。因此即使是同一对象,如果进行音质评价的立场不同,则可以认为是好的声音,也可以认为是不好的声音。不仅限于上面的例子,从录音机、唱机等系统的音质评价,到电容器、导线等基本元件的音质评价,是从原信号被忠实重放的观点评价的,还最从做为声音染色的要素来评价的,有时是含混不清的。关于模拟系统与数字系统的比较也是同样,立场不同,得出的音质好与坏的结论也会不同,这种问题在硬、软两方面的过渡期的问题解决之后,依然存在着,有时是引起讨论混乱的原因。
与"音质"相似的词汇有"音色",它们之间的区别往往会存在问题。首先,"音色"在 JIS(日本工业标准) [JISZ81O9一1986声学用语(听觉·声音.音乐)]中的定义如下, "音色:与听觉有关的、声音的一种性质,两个声音的响度及音调即使都一样,听上去却有不同的感觉,与这种差异所对应的性质就是音色。补充说明,音色与声音的频谱、波形、声压随时间的变化等有关。"坦率地说,这个定义不能认为是明白易懂的,就连一些专业研究人员也有各种各样的意见。从以前开始,在教科书中将"响度"、"音调"、"音色"作为声音的三要素来进行说明,但实际上,将"音色"与"大小""音高"完全分离开来听是很难的,这一点,包括"补充说明"在内,是煞费苦心进行表述的。如果只看"补充说明","音色"可以说成是对声音整体的综合印象。我们不做深入的讨论,简言之,"音色"是包括重放声、原声在内的,"听音时的响度、音调之外的综合印象",这样说至少是一种在实用中普遍使用的说法。"音质"是 JIS中没有定义的术语,有时几乎与"音色"以相同的意义使用着,二者大多是在以评价观念议论声音的"好-坏"、"喜欢-不喜欢"时使用的。 但是,在高质量声音领域中,经常会对声音进行好恶、优劣的争议。如果按照以上的用法, "音色"是听音者感到的各种印象,这不会成为问题,但是如果再加上价值观的话,往往会引起大争论,这也是实际情况。在这里重要的是人们各有不同的爱好;爱好变了,评价观念也会改变。对于声音,在能感到噪声和失真的低、中质量情况,大部分人的看法是一致的,都会喜欢噪声和失真小的声音。但是,对于噪声、失真几乎不成问题的高质量声音,人们的好恶往往不一样,相应的评价也不同。由声音心理专家进行的试听实验,也明显呈现了这种倾向(有大多数人共同的评价,也有由个人爱好得出的分歧评价)。
如果基准是忠实于原声音就是好声音,那当然是截止频率高的那一种好。关于:好声音",日本音乐学会曾举办过小组讨论会,当时所得出的关于"好声音"的几个判定基准现在看来还是基本上抓住了实质,现将要点归纳如下。
1) 符合客观基准的声音有明确的客观基准,并按照声音越接近这一基准越是好声音的标准进行判定。一般传输系统,输出信号最好是尽可能与输入信号相接近,因此,只要与输入情号这一客观基准进行比较就可以了。认为能按原声场重放出的声音是好声音的想法也正是符合这个基准。这样的判定中个人差异较小。
2) 接近已有印象的声音("相似"的声音)在人们心目中存在着对某种声音的印象,对听到的声音就会按照越接近这种印象越好的基准进行判定,有时会产生很大的个人差异。录音师一般对各种各样的乐器音都有很清晰的印象,即使在不同的演奏场所、不同的拾音条件,也会尽量制作出与印象相接近的声音。在听音人方面,在听唱片时,对各种风格的录音,当然认为是最接近自己心中声音印象的录音是"好的"。但是如果能认为"这个录音和自己的印象不同,但很理解录音师的意图,而且的确很成功地表现出来了,在这种意义上可以说是'好'声音",真能这样来听,是再好不过了。
3) 令人愉快的声音主观上感觉好听的声音(或优美的声音)就会判定是好的声音。这可以说是人们最朴素的本能反映。一般认为即使有一定程度的个人差异及听音条件的差异,但共同点还是很多的。还可以再细分,但实际上几乎是以这三种基准之一或它们的组合进行判定的。如果知道了自己是按照哪个基准判定的,对方又是如何判定的,因而在讨论中不一致的情况也许会少些。
在进行数字声频设备之间的音质比较,以及数字与模拟之间音质比较时,正如已经反复强调的那样,重要的是先要明确判定的基准,可以是以输出信号与输人信号尽量接近的信号作为好声音的基准来进行比较,也可以是以能输出好听而令人愉快的声音作为好声音的基准来进行判断。
同样的声音进人人耳内,听起来总是一样的吗?在立体声中,如果左有声道的声级差、时间差改变,则声音的定位方向也会改变。但是,即使声级差完全相同,入射到两耳的声音条件也完全相同,如果看见了与立体声声音相对应的图像(例如播音员讲话时的图像),就会被它引导使声音的定位方向改变。这种现象最近已被软件工程师们所熟知,在研究方面也进行了详细的实验。
人的感觉,如视觉、听觉等并不是完全独立的,而是相互联系、综合作用的。上例就是这一基本心理现象的切身具体实例。也有实验表明,看电视时,视线因声音的移动,在立体声和单声道两种情况下是不同的,这恰好表现了与上例完全相反的影响。
人的五种感觉,特别是视觉、听觉,当从外界接收了同样信号(光、声信号)以后,其感觉随当时的意识状态或注意程度如何变化的问题,近10年来引起了心理学领域的很大关注。既然感觉变化了,那应该是大脑成人体内产生了某种物理的变化,也曾试图对这种变化进行过测量。这虽是与高音质领域有一定距离的基础研究,但如今毕竟已不是因为很难用现有测量技术解释声频领域的上述现象而回避它的时代了。
总之,"数字声"的好与坏是由电子学心理学等多种学科有关的复杂问题,随着电子技术的进一步提高,我们会得到越来越接近真实声音的"声音"冷静地判断目前监听到的声音发生了怎样的变化,并且要充分掌握数字录音的特点,发挥数字录音的长处。
本文转www.audio100.com,原作者:雨田,有删改,欲看原作请登录短歌行