大家看看下面的文字吧. 原帖地址:
http://tieba.baidu.com/f?kz=98977699
网友 LukeLo 的「漫谈数位音乐」
网友 LukeLo 的「漫谈数位音乐」
自电脑发明以後,资讯的数位化是不可阻挡的潮流,也是二十世纪人类文明的重大革命,影响所及,深入现代生活各个层面,反映在音乐方面最常见的产物就是CD。自音乐CD在九零年代成为主流音乐储存媒体,数位音乐已与你我生活密不可分。本篇文章希望以深入浅出的方式,带领读者探索数位音乐的各类储存格式与讯号处理技巧。
何谓数位化?
从字面上来说,数位化(Digital)就是以数字来描述事物。例如用数字纪录一张桌子的长宽高尺寸以及各木料间的角度,这就是一种数位化。跟数位常常一起被提到的字是类比(Analog/Analogue)。类比的意思是用相似的东西去表达,例如将桌子用传统相机将三视图拍下来,就是一种类比的纪录方式。
音乐如何数位化?
将音乐数位化,首先必须将音讯数位化。将音讯数位化的方式有很多,最常见的方式是透过PCM(Pulse Code Modulation)。音乐CD即是纪录此种格式的数位讯号,转换原理如下。首先我们考虑声音经过麦克风,转换成一连串电压变化的讯号,如图一所示,我们现在开始将这声音波型的类比讯号数位化(Analog to Digital)。这张图的横坐标为秒,纵坐标为电压大小。要将这样的讯号转为PAM(Pulse Amplitude Modulation)格式的方法,是先以等时距分割横坐标。假设用每0.01秒分割,则得到图二。
接著我们把分割线与讯号图形交叉处的座标位置纪录下来,就完成了PAM。我们把横坐标数字纪录下来,得到如下资料,(0.01,11.65)、(0.02,14.00)、(0.03,16.00)、(0.04,17.74)…..(0.18,15.94)、(0.19,17.7)、(0.20,20)。现在我们已经把这个波形以数字纪录下来了,也就是完成了来源讯号的PCM。由於我们已经知道时间间隔是固定的0.01秒,因此我们只要把纵座标纪录下来就可以了,得到的结果就是11.65 14.00 16.00 17.74 19.00 19.89 20.34 20.07 19.44 18.59 17.47 16.31 15.23 14.43 13.89 13.71 14.49 15.94 17.70 20.00这一数列。这一串数字就是将以上讯号数位化的结果。看,我们确实用数字纪录了事物。在以上的范例中,我们的取样频率是100Hz(1/0.01秒)。其实电脑中的.WAV档的内容就是类似这个样子,档头纪录了取样频率和可容许最大纪录振幅等资讯,内容就是一连串表示振幅大小的数字,有正有负。前面提到音乐CD是以PCM格式纪录,而它的取样频率(Sample Rate)是44100Hz,振幅纪录精度是16Bits,也就是说振幅最小可达-32768(-2^16/2),最大可达+32767(2^16/2-1)。在这里我们可以发现无论使用多麼高的纪录精度,纪录的数字跟实际的讯号大小总是有误差,因此数位化无法完全纪录原始讯号。我们称这个数位化造成失真称为量化失真。
以上是PCM理论上的运作方式,但是实际上我们的电路没有办法纪录瞬间的振幅大小,而是纪录取样时距内的振幅最大值,也就是Sample/Hold的运作方式。这样的运作方式会造成波型的偏移,且很难用事後的运算来补偿,为PCM的一大缺点。
为什麼要数位化?
数位化的最大好处是方便资料传输与保存,使资料不易失真。只要纪录资料的数字大小不改变,纪录的资料内容就不会改变。传统类比的方式纪录讯号,如使用LP表面的凹凸起伏或是录音带表面的磁场强度来表达振幅大小,在我们复制资料时,无论电路设计多麼严谨,总是无法避免杂讯的介入。这些杂讯会变成复制後资料的一部份,造成失真,且复制越多次讯噪比(讯号大小与杂讯大小的比值)会越来越低,有意义的资料细节也越来越少。如果读者曾经复制过录音带或是录影带,一定有过发现拷贝版杂讯较大的经验。在数位化的世界里,数字转换为二进位,以电压的高低判读1与0,并可加上各种检查码,使得出错机率大大降低,因此在一般的情况下无论资料复制多少次,都可以达到不失真的目标。
或许读者会问,既然CD是数位化的储存媒体,为什麼用烧录机复制的烧片放到CD Player中音质往往比原版片来得差呢?数位化的复制不是不会失真吗?这个问题我们留到後面再解答。
作者:58.52.116.* 2006-5-10 11:13 回复此发言
--------------------------------------------------------------------------------
2 网友 LukeLo 的「漫谈数位音乐」
那麼,数位化的资料如何转换回原来的音乐讯号呢?这时候我们需要一项装置叫做DAC(Digital to Analog Converter),中文叫数类转换器。DAC的功能如其名是把数位讯号转换回类比讯号,在我们的CD Player,音效卡中都有这装置,而在许多电路中也经常被用到,例如显示卡的RAMDAC。我们可以把CD Player中以PCM运作的DAC想像成16个小电阻,各个电阻值是以二的倍数增大。当DAC接受到来自CD读取机构的二进位PCM讯号,遇到0时相对应的电阻就接上电路,遇到1相对应的电阻不作用,如此每一批16Bits数位讯号都可以转换回相对应的电压大小。这些电压大小看起来会像阶梯一样一格一格,跟原来平滑的讯号差异,因此再输出前还要通过一个低通滤波器,将高次谐波滤除,这样声音就会变得比较平滑。在Hi-Fi音响术语中,我们将读取CD且输出类比音讯的器材叫做CD唱盘,单纯读出CD资料输出数位讯号的器材叫做CD转盘。我们可以把CD唱盘当作CD转盘+DAC。在Hi-End音响的领域大部分倾向将CD读取分成转盘+DAC。值得一提的是,虽然CD转盘和DAC间传递的是纯粹的数位讯号,但是我们往往可以发现更换之间的线材(常用规格S/PDIF为阻抗75欧姆的同轴电缆或是Toslink塑胶光纤),却可以影响音质,这部分的问题我们也留到後面再说明,而这里有相关实验结果(http://www.dearhoney.idv.tw/phpBB/article/viewtopic.php?forum=1&topic=18877&start=70)。
细说音乐CD(Compact Disc Digital Audio)
关於音乐CD实在是有太多可以聊了,这个於1982年由Sony和Philips共同制定於红皮书的储存媒体,便於携带音质又比录音带好,流行至今毫无颓势。关於它的规格有许多有趣的故事,例如为什麼一片标准长度的CD是74分钟呢?话说这是因为设计者想要把贝多芬第九号交响曲存进一片CD中,於是开始估计CD的直径,另一套说法是著名指挥家卡拉扬(Herbert von Karajan)这样要求,也有人说是Sony公司当时主席的太太这样要求,另一套说法是Sony当时的Mr. Oga所决定的。另外要补充的是Herbert von Karajan指挥的贝多芬第九号交响曲总长度大概在68分钟左右,一般的版本大概在65~74分中间分布。 根据网友nightmare告知,大贺典雄的传记记载当卡拉扬还活著时,跟大贺的交情匪浅(算亦师亦友的感情吧),因此当年Philips找上Sony制定CD规格时,大贺就一口咬定一片CD一定要能装得下贝多芬第九号交响曲(大贺本身是声乐家),因为古典音乐单首曲目的长度比这个长的也寥寥无几,为了在聆赏时不影响兴致,所以大贺对此非常坚持,而日後大贺用此录卡拉扬预演的曲目,并让卡拉扬听,而卡拉扬非常赞赏这个划时代的数位媒体,甚至後来在说明会之类的活动时,卡拉扬也帮 CD 说了不少好话。
CD是以螺旋状由内到外储存资料,在一片标准74分钟的CD中,从里绕到外总共有22188圈,把它全部伸展开来长达5.7km。音乐的CD读取方式是等线速度(CLV),每秒有1.2m长的资料经过雷射头,雷射在真空中波长为780nm,以侦测CD表面的凹凸变化判读讯号。表面的凹凸刻痕宽0.5um,深度为0.11um(约为780nm雷射在CD塑胶材质内波长的1/4),长度为0.8到3.1um。CD是以由凹变凸和由凸变凹定义为1,平坦的部分为0,所以改变刻痕的长度可以改变资料内容。而读取头就是靠著凹变凸和由凸变凹时的光干涉作用来判读讯号。
音乐CD的规格为什麼是44.1kHz、16Bits呢?关於44.1kHz这个数字的选取分为两个层面。首先我们知道人耳的聆听范围是20Hz到20kHz,根据Nyquist Functions,理论上我们只要用40kHz以上的取样率就可以完整纪录20kHz以下的讯号。那麼为什麼要用44.1kHz这个数字呢?那是因为在CD发明前硬碟还很贵,所以主要数位音讯储存媒体是录影带,用黑白来记录0与1。而当时的录影带格式为每秒30张,而一张图又可以分为490条线,每一条线又可以储存三个取样讯号,因此每秒有30*490*3=44100个取样点,而为了研发的方便,CD也继承了这个规格,这就是44.1kHz的由来。
作者:58.52.116.* 2006-5-10 11:13 回复此发言
--------------------------------------------------------------------------------
3 网友 LukeLo 的「漫谈数位音乐」
一张刮痕累累的CD放到CD Player中听起来声音常没有什麼问题,这又是什麼原因呢?这是一个非常复杂的问题,我们必须从CD的讯号储存格式说起。首先要引入的名词是block,CD每秒钟的资料被分成7350个block。每个block内有588bits的资料。可是这588bits无法全部用来储存有意义的资料,因为过度密集的凹凸变化会造成硬体设计难度的增加,且CD是以由凹变凸和由凸变凹定义为1,无法重复出现1,因此每14个bits中只有8个bits是有意义的,这就是所谓EFM(Eight-to-Fourteen-Modulation)的目的。扣除6bits无意义的资料,每个block剩下588*8/14=336bits,再扣除同步(sync)与合并(merge)资讯,剩下264bits,等於264/8=33bytes。在这33个data bytes中,有1个sub-code byte、12个odd-audio bytes、4个Q-redundancy bytes、12个even-audio bytes和4个P-redundancy bytes。其中最有意义的就是那12+12=24个音讯bytes,每个block共有24*8=192bits,由於CD以16bits纪录资料大小,因此每个block有6个立体声取样点资料(6*16*2=192)。还记得前面说过每秒钟有7350个block吗?由此可以得知每秒钟有6*7350=44100个立体声取样点!没错,就是这个数字。顺带一提的是每98个block组成一个frame,每秒有75个frame(98*75=7350)。好了,我们还没讲到重点,为什麼有轻微刮痕的CD听起来还是很正常呢?
答案就在於这24bits的音讯资料,并非单纯按照出现顺序储存在单一的block中,而是打散顺序离散分布在接下来109个block中,因此若有刮痕造成一部份的资料无法正确读出,可以藉由前面提到的P-redundancy bytes和Q-redundancy bytes作同位检查确保资料正确性,进而重建资料,还可利用声音连续变化的特性,由问题资料的前後取样点来内插补点。实际编码时,是先将12bytes的even samples重新排列然後经由C2编码计算出4 bytes的Q-redundancy得到28bytes的资料,然後由这28bytes的资料来决定这24bytes的音讯要如何分布在0到108个block中。再来将这28Bytes的资料经过C1编码,如此就得到4bytes的P-redundancy。P-redundancy另外的用途是确保当取样点都为0时这block中的32bits仍不都为零。另外每个block还有一个sub-code byte,其用途非常广泛,在lead-in的区域sub-code纪录了这张CD有几轨、总长度多少;在音轨的部分则记录了从这轨开头已经经历了多少时间、从第一轨开头又经历了多少时间、这音轨是二声道还是四声道(不过从来没听说过四声道的CD)、是否允许复制、以及该音轨是否有经过Pre-emphasis处理与一些侦错资讯。另外sub-code也可以用来记录该CD的UPC(Universal Product Code)码与该音轨的ISRC(International Standard Recording Code)码。ISRC由IFPI统一发放,前两码英文代表国名,再来三码英文为发行者,最後五码是数字。
我们常在古典音乐CD上看到DDD,ADD,AAD字样,又代表了什麼意思呢?这三个英文其实是Digital或Analog的缩写,第一个英文表示录音时的母带为数位或是类比格式,第二的英文代表混音及剪辑时母带使用数位或是类比格式,最後一个英文字代表最终的Master母带是用数位还是类比格式储存,由於音乐CD的母带一定是数位化的,因此最後一个英文字都是D。
接下来想要介绍一些CD的衍生物如HDCD,xrcd2等,但是不可避免要提到一些数位录音著专业术语,因此我们先解释一下这些术语。
数位音讯处理名词解释
Pre-emphasis
Pre-emphasis就是在录音的时候将高频讯号放大,放音时再把讯号用同样的倍率缩小以还原波形(De-emphasis),在类比录音的时代,这个技巧的主要用途是作为提高讯噪比。例如广播发送时将频率1500Hz to 2000Hz以上以每八度音6dB的倍率提高讯号,或是LP唱片(LP)在录制时的RIAA(美国唱片工业协会)等化曲线(不过这曲线的制定目的主要与LP的结构有关,且放大讯号不只高频而已),以及录音带用的杜比抑噪系统,都是使用同样的原理。在数位的领域,Pre-emphasis的主要用意在於降低量化失真,因为一般的音乐讯号高频段往往振幅比较小,而且越高的频率振幅越小,所以从PCM取样的原理中我们可以发现这些小振幅会被分配到较少数的bits来记录,这样有效描述振幅的数字就变小了,与原波型的误差就变大了,因此我们使用Pre-emphasis的技巧先增加高频振幅再取样来降低高频量化失真。使用这功能的音乐CD非常少见,推测是因为Pre-emphasis和De-emphasis这一来一回的计算,反而造成了更大的失真。就笔者所知风之谷原声带就有经过Pre-Emphasis处理,由之前提到的subcode纪录著这项资讯。
作者:58.52.116.* 2006-5-10 11:13 回复此发言
--------------------------------------------------------------------------------
4 网友 LukeLo 的「漫谈数位音乐」
Supersampling(Oversampling)
Supersampling字面上的翻译叫做超取样,原理是从已有的数位讯号经过内插补点计算得到取样点间的讯号振幅资讯,例如把44.1kHz转成176.4kHz的四倍超取样。超取样并不能帮我们把更多的细节从量化失真中找回来,它的主要用意是帮助我们获得更正确的类比讯号。怎麼说是更正确的呢?从之前关於PCM取样的介绍我们知道越高频的讯号被取样的次数就会越少,想像一个20kHz的正弦波经过44.1kHz的取样,一个周期分不到三个取样点,要从这三个取样点算出原来的正弦波理论上是可以办到的,但实作的这样的数位电路来计算是非常繁杂的,因此发展出来了各种取巧的方式希望能藉由较简单的计算得到接近原波型的结果,超取样算是其中的一种方法,用意是为了重建高频讯号与原始波型。
Dynamic range
中文叫做动态范围,也就是容许纪录资料最大值与最小值的比值,例如16Bits纪录精度的音乐CD其动态范围最大就是20*log[(2^16)/1]=96.3dB。用越多bit纪录,我们就可以得到越大的动态范围。如果能纪录越大的动态范围,我们就能纪录越多的细节,并且更能保存爆炸声等大音量声音的波形。当动态范围不足时,为了不造成破音,我们只好降低录音音量,可是小范围的声音变化可以分配的bit就减少了,造成量化失真更为严重。
Peak Level
我们把一段波型的最大振幅叫做Peak,peak level则是这最大振幅与最大可容许纪录振幅的比值。在16bits的例子中,最大振幅就是32767,20bits的例子中就是524287。在之前PCM取样原理的介绍中我们可以发现越大的振幅可以分配到越多的bit去纪录,因此同样的一段波型只要Peak Level不超过1(超过可能会爆音),则原始类比讯号音量越大纪录的波型越精准。
Normalize
Normalize就是将一段波型音量放大,放大的目标是让原波型的最大振幅(peak)等於最大可容许振幅。我们常常会抱怨自做精选集CD这一首音量好大,下一首音量又太小,这时将每首都经过Normalize处理可以改善这个问题。不过由於经放大过後的振幅大小可能不是整数,最後不可避免要用到四舍五入之类的技巧,因此处理过的波型和原波型造成非线性放大产生误差,再度导致量化失真。所以为了保留音色与相位的正确性,处理数位音乐尽量避免Normalize,除非放到後刚好不须舍弃位数。
Dither
Dither是数位音乐处理上非常神奇的技巧,目的是用少数的bits达到与较多bits同样的听觉效果,方法是在最後一个bit(LSB
east Significant Bit)动手脚。例如用16bits纪录听起来好似20bits的资料,听到原先16Bits无法纪录的微小资讯。举例来说,今天我有个20Bits的取样资料,我现在想把存成16Bits的资料格式,最简单的转换方式就是直接把後面四个bits直接去掉,但是这样就失去用20Bits录音/混音的意义。比较技巧性的方法是在第17~20Bits中加入一些噪音,这段噪音就叫做dither。这些噪音加入後,可能会进位而改变第16个Bit的资料,然後我们再把最後四个bits删掉,这个过程我们称为redithering,用意是让後面四个bits的资料线性地反映在第16个bit上。由於人耳具有轻易将噪音与乐音分离的能力,所以虽然我们加入了噪音,实际上我们却听到了更多音乐的细节。
关於dither有种比喻是说我们透过手指间的细缝只能看到眼前部分的图形,但是如果前後挥动手掌,就可以透过不同时刻看到的各个图形的一小部份,在脑中建构出完整的图形资讯,这是大脑神奇的地方,不是简单的理论就可以说得通的。在此我提供一个网址,该网页内提供经过dither处理和原始的wav档下载,内容是一个固定频率的声音以等比例逐渐降低音量,我们可以发现经过dither处理过的声音听起来失真比较少且持续比较久,也就是可以让我们听到更小的音量与细节,还附有dither前後的波型图示,网址如下:http://www.mtsu.edu/~dsmitche/rim420/reading/rim420_Dither.html。在众多的dither技术中,Sony公司的SBM(Super Bit Mapping),LIVE STUDIO RECORDINGS的ULTRA MATRIX PROCESSING,都是专攻20bits转16bits的技术。Dither在数位音讯处理用途非常广泛,举凡两个波型的相加、振幅的缩放、Normalize都会用到。现在的录音室已经进展到24bits录音,在CD还是主流储存媒体的时代,dither还是非常重要的技术。顺道一提,在影像处理领域,将24bits的全彩图形以16bits的高彩画面显示也会用到dither的技术。
作者:58.52.116.* 2006-5-10 11:13 回复此发言
--------------------------------------------------------------------------------
5 网友 LukeLo 的「漫谈数位音乐」
Jitter
Jitter一般翻译作时基误差,是数位音讯播放音质劣化的原因之一。Jitter会造成声音的改变,成因并非振幅资料本身的错误,而是时间部分出错了。在之前数位化的过程中我们知道一个取样点包括振幅和时间这两项资料,而jitter造成振幅没有在准确的时间呈现出来使得波型扭曲。在普通的CD Player中,由於读取机构是由资料流量来判断转速是否合宜,而电路的工作时脉又是以读出的一连串数位讯号的多少来决定,因此当转速不稳定时,每秒读出的资料数量就有误差,而电路工作时脉就受到影响,由电路工作时间所决定的各个取样点的出现时间与实际的时间就产生误差,这就是jitter的成因之一。还有很多影响工作时脉的因素可能造成jitter,例如CD的重量与厚度是否均匀影响转动稳定性、反射面的材质、石英震汤的品质、CD转盘到DAC之间的连接线,都会造成jitter。要避免jitter发生最直接的方法就是re-clock,将接收的数位讯号先存到缓冲记忆体中,在精准的时钟运作下重新送出这些数位讯号,并且让後续的数位电路以这个时钟为运作基准。有些Hi-End器材使用不同於一般S/PDIF的单线数位传输介面,加入包含时钟讯号的接线用意即在此。S/PDIF将运作时脉资讯藏在资料的变化中,因此资料流量会影响运作时脉。
或许读者仍对所谓资料正确但是音质受到影响感到疑惑,为了让读者对jitter有更深刻的认识在此提出一个相关实验。准备一张音乐CD,然後复制成另外一张,并用抓音轨软体检查确保这两张CD的资料内容是相同的,可是放到CD Player中聆听却发现两张CD的音质有很大差异。原先猜测是因为CD Player的读取机制不如电脑光碟机精准,但经过专业用音效卡CardDeluxe数位录音从CD Player的数位输出(SPDIF Out)的结果,经过多次的比对我们发现数位录音的结果与直接抓音轨的资料内容相同,也就是说CD Player读取资料内容并没有问题,而影响音质的主要原因是jitter。单位时间资料流量不稳定的变动造成jitter,但这些资料内容本身并没有出错,因此不能单从数位录音的资料发现错误。一般来讲,除非设计上有瑕疵,jitter不该会大到使资料内容出错,否则该称为Error而非jitter。
音乐CD的衍生物与接替产品
HDCD(High Definition Compatible Digital)
别给这个产品名称给吓到了,HDCD本质上还是CD,放到一般的CD Player中播放完全没有问题。HDCD是Pacific Microsonics创始人Keith Johnson和Pflash Pflaumer於1995年提出的规格,其技术本身也包含从20Bits的原始母带dither至16Bits的技术,但其独特的地方在於比dither更有效利用CD的第16个Bits(LSB),它不但用dither技术处理LSB,使得音质比一般CD好,甚至将LSB以固定的数字排列,当作是一种指令,这种指令在一般的CD Player对於听觉没有影响,可是在搭载HDCD解码晶片的CD Player上,这些特殊的指令就可以改变声音的特性,例如增加某频段的音量,提升整体动态范围,或是音场调整。这些加料的功能使得声音听起来细节更多,定位更加精准,这正是HDCD的特色。常见的CD如孙燕姿的几张专辑都经过HDCD处理过。HDCD的技术并非限於音乐CD,在DVD-Audio上也有发挥的空间。目前HDCD的技术属於Microsoft,Windows XP内建的Media Player就有辨识HDCD的功能。
xrcd(extended resolution compact disc)
Xrcd也是不折不扣的音乐CD,由JVC制作发展。Xrcd的特色是以DIGITAL K2处理。这套技术不光是以20bits 128倍超取样将类比讯号转为数位讯号,还加上另一套20Bits转16bits的dither技巧,意图将CD制作过程的每一个步骤最佳化!不但非常注重各个器材的供电品质,器材的连接线材,配送系统,且为了降低jitter对音质的影响,所有的数位讯号都改用SDIF-2传输,有别於一般所使用的AES/EBU工业标准,并对於时钟的运作精度做过特别的校正。经处理最後的CD母带资料储存於Sony PCM9000 MO,送至位於日本横滨全世界唯一一条xrcd生产线。Xrcd另外一个特色是以铝作为反射面(与一般CD相同),JVC宣称是因为使用铝可以达到比较低的jitter。Xrcd价位相当高,通常要一千三百元以上,便宜的如麦田之歌也要八百多元,但是音质与音场表现的确有其独到之处,因此在发烧音响界仍有其市场。
作者:58.52.116.* 2006-5-10 11:13 回复此发言
--------------------------------------------------------------------------------
6 网友 LukeLo 的「漫谈数位音乐」
DVD-Audio
DVD-Audio是以DVD(Digital Versatile Disc)作为储存媒介的新音乐媒体,於1999年三月提出。取样方式为LPCM(Linear Pulse Code Modulation),可选择性采用MLP(Meridian Lossless Packing)无失真压缩技术减少庞大的资料容量。DVD-Audio的取样率有44.1kHz、48kHz、88.2kHz、96kHz、176.4kHz、192kHz等,可以16Bits、20Bits、24Bits取样,使用立体声录制时最大资料流量可达192kHz 24Bits,当采用5.1声道(家庭剧院用中置一颗扬声器、主声道两颗、後环绕两颗、超低音一颗合称5.1声道)录制时最大取样率可达96kHz。DVD-Audio可於播放时搭配画面与音乐输出。DVD-Audio如此高的取样率最大的好处在於不需要繁复的超取样运算就可以得到正确的音讯波型,另一个好处是减少jitter对音质的影响。DVD-Audio目前的价位大概在一千两百元左右。
SACD(Super Audio Compact Disc)
SACD是Sony所提出以DVD为储存媒体的下一代音乐储存规格。SACD的最大特色在於摒弃PCM来数位化,改用Delta-Sigma Modulation(属於PWM(Pulse Width Modulation)的一种)。其实Delta-Sigma Modulation是很常见的技术,平价的CD Player,床头音响,CD随身听,音效卡,都是先将PCM讯号先经过Delta-Sigma Modulation然後再转为类比讯号。Delta-Sigma Modulation之因为可以用较低的成本和比较少的数位滤波器达到较高品质的声音水准,因此大受欢迎,Philips的bitstream也属此类技术。Sony将其改良的Delta-Sigma Modulation技术命名为DSD(Direct Stream Digital)。PWM不同於PCM取样以讯号振幅大小为主,而是改为纪录目前资料数值大於或是小於前一个资料,是相当复杂的技术,我们简略地以下图表示:
(上图取自SONY的SACD广告文件)
SACD使用DSD的最大好处是从录音到播放全部都以Delta-Sigma Modulation处理数位讯号,不用在录音时先用PWM取样再转回PCM储存,放音时又要把PCM经过PWM处理再经转回类比讯号的层层手续(听起来很笨,可是绝大部分的CD都是这样运作的),因此可以降低失真,以下是运作图示:
(上图取自SONY的SACD广告文件)
SACD同样也有立体声和5.1声道的规格。由於SACD并非PCM编码,不需要多bits储存振幅,只要一个bit就够了,且取样率使用高达2822400Hz。SACD如同DVD-Audio有单面单层和单面双层的规格,比较特殊的是混合光碟(Hybrid Disc),此种格式第一层资料与普通CD相同,可以放到CD Player中播放,第二层则是存放正统DSD讯号,供SACD Player播放。Delta-Sigma Modulation是相当专业的技术,想要进一步认识请参考以下文件,内容取自高传真233期 P.63,作者为黄克强先生。http://freehomepage.taconet.com.tw/This/is/taconet/top_hosts/Hotech/article4.doc
dts CD
dts CD其资料格式与一般CD相同,都是16bits,44.1kHz,可是纪录的资料内容并非PCM取样讯号,而是经过dts(Digital Theater Systems)编码後的5.1声道讯号。Dts CD聆赏时必须将CD转盘的数位输出接至支援dts的解码器才能获得5.1声道类比讯号。由於dts CD格式与普通CD相同,因此与HDCD、xrcd一样都可以用普通的方法复制。
音乐CD复制技术
音乐CD的复制,终极目标是音质与来源CD相同,甚至更好。要达到这个目的要分为两个层面讨论,首先是资料的正确性,再来是降低jitter。
音乐CD的主要侦错机制在於C1/C2编码和subcode,虽然没有CD-ROM的ECC/EDC编码严谨,但轻微的刮伤还是能重建完整的资料。在复制音乐CD时,最好先将音轨资料抓到硬碟里,然後再从硬碟烧录。直接对烧的坏处在於当光碟机发现音轨有问题时,没有充裕的时间可以多读几次确定资料内容,因此很容易烧出爆音,且刮痕太严重时,过多无法读出的资料甚至会造成烧录中断。
抓音轨(DAE
igital Audio Extraction)时光碟机的品质与抓取模式对资料的正确性影响甚大。有些光碟机抓音轨的速度很慢,也有些光碟机抓得很快却爆音连连。当光碟机抓取的资料量超过本身cache负荷时,光碟机必须暂停读取,等cache有空间了才能继续。有些光碟机在经历这暂停再读取的过程,再次读取的位置会跟停止前的位置不同,造成资料的断层,也就是爆音的出现,这就是抓音轨不宜一味求快的主因。要有优良的抓音轨能力,光碟机必须要具备Accurate Stream的功能,这样就能避免以上缓冲区满载重读出错的问题,更进阶的是C2错误资讯撷取功能,也就是当光碟机在抓音轨时会同时侦测C2编码,如果出错的话自动重新读取,对於资料的正确性与速度有显著帮助。综合以上要求,TEAC和Plextor出品的CDROM是相当优良的音轨抓取装置,尤其是Plextor的产品,DAE速度特别出众。另外在抓音轨时很多人喜欢用Burst Mode求其速度快,但是这种读取方式只读一次不回头,如果片子很乾净的话不会出什麼问题,要是有刮痕的话常会爆音连连,何况当遇到刮痕时光碟机常常要降低转速,读过去了又加速,反覆加速减速严重影响光碟机寿命,因此实在不建议使用Burst Mode对付有括痕的片子。
作者:58.52.116.* 2006-5-10 11:13 回复此发言
--------------------------------------------------------------------------------
7 网友 LukeLo 的「漫谈数位音乐」
除此之外,我们可以发现将烧好的片子中的音轨抓出来跟来自母片的音轨做比较,来自烧片的wav档音乐资料前面总是多了一些为0的取样点,可是档案总长度却没有改变。我们称这种情形叫做资料排序的offset。这些0的来源有两个,来自抓音轨光碟机的Read Offset和烧录机的Write Offset。之所以会有Read Offset是因为光碟机读写头认为自己所在的位置跟实际上资料出现的位置有误差,因此当音轨抓出来的时候,总是与原始资料产生位移,於档案开头多个几个0或是少了几个0(以上是以假设这片CD每一轨之间都是静音来讨论),而在这些0之後的资料又跟原始波型完全相同。同理烧录机的Write Offset成因也是一样。这些Offset并不会影响音质,只是资料和来源有些微的差异,但音乐资讯是相同的。目前能够克服offset的抓音轨软体和烧录软体非常少见,个人推荐使用免费软体Exact Audio Copy(网页http://www.exactaudiocopy.de/),不但可以单独设定各光碟机与烧录机的offset,又有独特的Secure Mode DAE将每个frame至少重复读取两次,如果资料不同会重复读取到最多82次来确定资料内容。EAC可以做出无论用什麼软体抓音轨内容都与来源片完全一样的烧片,是目前寻求烧录音乐CD资料正确性的最佳解决方案。
接下来要解决的是jitter的问题。影响的jitter层面很广,举凡烧录的速度,空片的材质,烧录机的电源等都会影响。笔者参考日本的烧片测试网站http://www.ne.jp/asahi/fa/efu/media/media.html後发现以水蓝片的jitter较小,金片最大,而不同的烧录机各有jitter最低的烧录倍速。为了降低jitter我们建议购买日制That's水蓝片或是新加坡/日本制三菱湛蓝片并且调整烧录速度,而且避免开启Just-Link或是Burn-Proof以免造成资料断层。很可惜的是虽然经过这一连串的努力,烧录出来的片子跟原版CD还是有所差异,所以为了尊重著作权与音质表现,请大家支持原版CD。不过台湾很多盗版音乐CD的jitter很大造成音质跟原版片有显著差异,我们发现用以上的方法烧出来的片子声音还比较好。这也告诉我们jitter是可以在事後处理加以改善的。
另外要补充的是有些烧录软体和DAE软体上会有Jitter Correction的选项,但是我们从上面的文章可以知道jitter其实不会影响资料的正确性,也就是说jitter大小并不会改变抓出来的的音轨资料内容。这些软体所谓的Jitter Correction其实是指光碟机会藉由反覆读取比对资料来确保资料内容的正确性,主要是用来对付有刮痕或压制有问题的CD。这个Jitter Correction的处理层面跟上述数位音乐的jitter不同,个人建议改称为Error Correction。
讲了半天都在讲CD,数位音乐并不只包含CD,接下来就来介绍其他的数位音乐格式,就从我们常看的VCD和前一阵子震惊全台住宿大学生的话题格式MP3开始吧。
MPEG与MP3的压缩方式
MP3是当前最流行的音讯压缩格式,全名为MPEG Audio Layer 3,为MPEG(Moving Pictures Expert Group)这个团体当初和影像压缩格式同时研发的音讯压缩格式。举凡一般VCD影像压缩所使用的MPEG1,音讯所使用的MP2编码,以及DVD-Video影像压缩所使用的MPEG2编码都是这个团体的研发产物。这些影像和音讯的编码都是失真(破坏性)压缩。相较於CD和DVD的容量,未压缩的影像和音讯资料容量是非常庞大的。想像一片音乐CD本来只可以储存74分钟的声音(其实超过74分钟的音乐CD也很多,甚至有超过80分钟的),在VCD中不但要储存差不多长度的音效还要加入画面,可见压缩率必须相当高,而且必然是破坏性的。DVD-Video的声音格式常用的有LPCM,Dolby Digital,dts,其中LPCM通常是16Bits,48kHz立体声讯号,与Dolby Digital同属与DVD标准音讯规格。Dolby Digital如同MP2,MP3也是一种破坏性压缩编码,特色为声道数从立体声到5.1声道(最新的是7.1声道的Dolby Surround EX)都有,压缩流量最大可达448kbps(kilo bits per second),将这个数字除以三对喇叭的的资料,我们可以算出每对喇叭(前置或後置)可以分到的流量约为149.3kbps,与时下流行的128kbps MP3大不了多少,且压缩效率又比MP3差,因此其实大家不用对DVD-Video的Dolby Digital声音品质存有太大的遐想,其实流量只比普通的MP3大一点点而已,何况448kbps只是最大流量,很多DVD-Video根本没有用到这麼大的流量。
作者:58.52.116.* 2006-5-10 11:13 回复此发言
--------------------------------------------------------------------------------
8 网友 LukeLo 的「漫谈数位音乐」
DVD-Video的dts与音轨前面提到的dts CD使用同样的编码技术,最大流量与立体声LPCM相同,也就是每秒48000*16*2=1536000bps=1536kbps,远比Dolby Digital所提供的448kbps来得大,破坏性压缩失真较少,因此可以想见dts DVD的音质一定比Dolby Digital来得好,这也就是为什麼市面上经过dts编码的DVD总是卖得比较贵,身价高人一等的原因。一般支援dts的DVD-Video为了在不支援dts的设备上也可以播放所以通常会同时搭载经过Dolby Surround编码的二声道的Dolby Digital音讯。
到此还没说明为什麼MP3压缩比例为何那麼高。音乐CD的流量是每秒44100*16*2 =1411200bps =1411.2kbps,而我们常用的MP3流量只有128kbps,压缩後的容量小於原先的十分之一,而听起来声音却还不错。MP3压缩时运用到五个重要的技巧,分别是最小听觉门槛判定(The minimal audition threshold),遮蔽效应(The Masking effect),位元储存槽(The reservoir of bytes),The Joint Stereo,和Huffman编码。
最小听觉门槛判定是一种减少资料量的手段,因为人耳对不同频率的声音听到的音量反应不是平直的,因此我们可以将大部分的纪录资讯集中在人耳最灵敏的2kHz到5kHz,其馀频率分配比较少的容量纪录。
遮蔽效应也是听觉心理学模型(Psychoacoustic models)的一种,在视觉上呈现的效果是在大太阳下比较难看到天空中飞翔的鸟,听觉上的涵义就是当有一个音量或音色特别突出的声音出现,其他细小的声音会比较难被察觉,就像是管弦乐团齐奏时不易发现观众的咳嗽声,尽管咳嗽的音量与没有其他声音时其实是相同的。因此在编码时我们不需要把所有的声音细节都编进去,而该把资料拿去纪录比较突出容易引起注意的声音。
位元储存槽在解释前要先说明MP3的流量属性,CBR和VBR。CBR是Constant Bitrate的缩写,也就是说该MP3每秒钟的资料流量是固定的,常见的MP3都是以CBR编码,好处是压缩速度快。相对的VBR是Variable Bitrate的缩写,每秒钟的流量是可以变化的,好处是在讯号复杂时用比较多的容量去纪录,波型简单时就用比较低的流量,以有效利用空间。CBR的缺点就是每秒钟的流量都相同,很容易造成空间的浪费,因此有reservoir of bytes的出现,用途是当波型简单时不要用那麼大的流量,把多馀的空间保留下来储存将来比较复杂的波性资料,维持流量的大小,达到类似VBR的效果。VBR的MP3并不需要reservoir of bytes。
Joint Stereo是一种立体声编码技巧,主要分为Intensity Stereo(IS)和Mid/Side (M/S) stereo两种。IS的是在比较低流量时使用,利用了人耳对於高频讯号向位分辨能力的不足,将音讯资料中的低频分解出来合成单声道资料,剩馀的高频资料则合成另一个单声道资料,并另外纪录高频资料的位置资讯,来重建立体声的效果。例如钢琴独奏的录音就可以利用这种方法在有限的资料流量中减少音场资讯但大幅增加音色资讯。
Mid/Side (M/S) stereo在左右声道资料相似度大时常被用到,纪录方式是将左右声道音讯合并(L+R)得到新的一轨,再将左右声道音讯相减(L-R)得到另外一轨,然後再将这两轨资料用上面提到听觉心理学模型与滤波器处理。Mid/Side (M/S) stereo与IS一样的是利用部分相位(phase)资讯的损失来换得较高的音色纪录资讯。一般的MP3是Mid/Side stereo和Intensity Stereo交替使用的,视资料内容与流量而定。如果是更高流量如160kbps以上的MP3,则可以单独将立体声的两个声道独立编码,以保存相位资讯。
Huffman编码(coding)是一种常见的无失真压缩方案。当PCM讯号被分成好几个频段并经过以上的处理之後,最後经过MDCT(Modified Discrete Cosine Transform)(类似FFT(Fast Fourier Transforms)),将波型转换为一连串的系数。这些系数最後经过Huffman编码来做最後的压缩。Huffman编码的原理是将比较常出现的字串用特定的符号表示,压缩後就得到一个纪录每个符号代表的字串的编码表以及一连串由各符号组成的资料内容。Huffman编码可以节省约20%的空间,而也因为经过了Huffman编码,我们可以发现用WinZip、WinRAR之类的压缩软体并没有办法把MP3档缩小多少,理由就是因为这些压缩软体也是利用类似Huffman编码的技巧,因此压缩程度有限。以上关於MP3编码的资料取自http://www.mp3-tech.org/tech.html。
作者:58.52.116.* 2006-5-10 11:13 回复此发言
--------------------------------------------------------------------------------
9 网友 LukeLo 的「漫谈数位音乐」
MP3播放时的运算远比编码时简单,只要先经过Huffman解码再由MDTC的逆运算重建波型就可以了,值得注意的是MP3不同於PCM没有振幅纪录精度(bits)的概念,我们可以自由使用16bits或是20bits甚至24bits的运算精度来重建波型。一般的MP3 Player运算精度都是16bits,而Winamp的MP3解码外挂MAD(作者网页http://www.mars.org/home/rob/proj/mpeg/mad-plugin/)则是以24bits处理,如果使用的音效卡支援24bits格式的PCM,就可以直接输出24bits的讯号。一般的娱乐用音效卡都只有16bits数类转换能力,因此讯号送给音效卡前必须要先经过re-dithering的过程,我们从之前的介绍可以知道经过这样的处理可以听到比16bits更多的声音资讯与动态范围,因此MAD在一般的音效卡上仍有其使用价值。笔者使用MAD与Winamp 2.74内建的MP3 decoder比较,发现MAD音质的确比较好,声音开阔,小提琴擦弦感与钢琴力度都比内建decoder好很多,强烈建议各位听MP3时搭配使用。
网路上有相当多的MP3压缩软体,有的强调速度快,有的强调使用介面间单易用。我个人是以音质作为第一考量,趁此几会再次向各位推荐一个免费的MP3压缩程式LAME(下载位置http://www.jthz.com/~lame/),这套程式属於自由软体,遵照GPL规范,为网路上很多热心人士所集体研发而成,目前仍持续更新中,原始网页为http://www.mp3dev.org/mp3/。截稿之前本软体已经有3.90beta版。搭配LAME的前导程式是RazorLame,有关於此程式的使用说明与压缩参数介绍请参考:http://www.dearhoney.idv.tw/MP3/Encoder/Tiberius20001119/。比MP3进步的压缩格式还有mp3Pro和AAC,请参考以下网页介绍。
http://www.dearhoney.idv.tw/MP3/mp3PRO/
http://www.dearhoney.idv.tw/phpBB/article/viewtopic.php?forum=3&topic=19810
从前Internet频宽还不大时,MP3的交流比较少见,一般网页通常使用MIDI作为背景音乐。MIDI也是数位音乐的一大分支,以下就来介绍MIDI。
MIDI(Musical Instrument Digital Interface)
MIDI是在1982年由世界上各电子乐器大厂所共同制定的一种电子乐器通讯介面,藉由传送各轨发音所要的音色类型、各个音符的强弱、高低、长短、以及使用效果器的种类与参数,来记录音乐资讯。电脑中应用MIDI格式储存一首曲子的各音符资料的档案种类很多,例如.mid,.midi,.wrk,.rcp....等,这些档案由於只储存音符的资料,而没有关於音色波型的纪录资料,因此容量比起wav、MP3都相当小,大部分经过WinZip压缩後都只有十几kbytes。
要播放这些MIDI档案,除了MIDI档和播放软体外,最重要的是MIDI音色和对应的效果器支援。我们可以把MIDI档视作为乐谱,播放软体视为乐团的成员,MIDI音源视为乐器,三者缺一不可。一般来讲,要达到谱曲者所想表达的音响效果,最好是拿谱曲时所用的音源来播放最忠於原味,因此,MIDI的音色容量未必越大越真实越好,效果器功能也不是越夸张越好,能够符合原作者要求而恰如其分才是最适合的。如果很不幸地无法获得相对应的音源,至少要使用该音源厂牌同等级产品来播放,才能达到类似的效果。
MIDI音源一般来讲可以分成三种,第一种是硬体音源,例如音源器(Sound Moduler),音源卡,MIDI键盘,还有音源子卡。其中音源器和琴以及许多衍生配备,必须要搭配MIDI介面卡(如从前常见的Roland MPU-IPC-T)才能与电脑相连接,达到发收MIDI讯号的功能。许许多多的MIDI档都是由谱曲者用MIDI键盘弹出音符,再经由MIDI Cable把讯号传至MIDI介面卡由电脑纪录下来。音源器是外接设备,面板上通常有音量调整与选择各轨效果器的按钮与液晶显示幕,而音源卡则是将音源器的发声构造做在电脑介面卡上,属於内接设备。音源子卡在使用上必须另外搭配音效卡提供电源和MIDI讯号,并且放大音源子卡输出的类比讯号。音源子卡在1994年以後开始流行,是电脑音效卡的龙头老大Creative所提出的标准。当时有很多音效卡支援音源子卡,例如Creative SB16,SB AWE32,近代的瑞丽声之钻,和氏璧,春之颂Pro,Diamond MX300,Turtle-Beach SantaCruz,Labway Xwave Thunder 3D等。这里有一些音源子卡与音效卡连接的照片http://www.dearhoney.idv.tw/SoundCard/FM801/dvd6.htm,注意看这些音效卡上26pin的针脚就是用来连接音源子卡。还有一些卡不是音效卡却可以搭配音源子卡。例如Roland MPU-401AT本身是MIDI介面卡,KORG NS5R是音源器。在众多的音源子卡中,最有名的分别是日本三大MIDI音源厂的产品Roland SCD-15、YAMAHA DB50XG和Korg Topwave。关於以上天花乱坠的器材长相请参考Dearhoney数位音乐工作室博物馆,看过这些器材的照片後对於以上文字会有比较清晰的概念。
作者:58.52.116.* 2006-5-10 11:13 回复此发言
--------------------------------------------------------------------------------
10 网友 LukeLo 的「漫谈数位音乐」
另一种MIDI音源是软体音源,常见的软体音源例如YAMAHA S-YXG系列,是以音源器YAMAHA MU-15(架构与音源子卡DB50XG和音源卡SW60XG类似)这台音源器为模拟对象,相容於GM,XG与GS;Roland VSC系列,是以Roland SC-88Pro作为模拟对象,相容於GS,GM和GM2;WinGroove则是由作者中山裕基先生自多台硬体MIDI音源中采样音色,相容於GM与部分GS。软体音源的缺点是需要较高的CPU使用率且很难做到即时发音。想像一下当按下琴键後过了0.3秒声音才发出来是个多麼令人难过的事情。GigaSampler也属於软体音源的一种,有公开的音色档格式,在专业领域很受欢迎。
还有一种MIDI音源就是目前娱乐用音效卡所广泛采用的技术-将MIDI音色存在硬碟中,当使用时再存到主机板上的RAM内,而不同於传统上将音色资料烧死在音效卡上的ROM中。这种观念的始作俑者是Gravis UltraSound,问世当时风靡MOD界(简单来说MOD是一种包含音色波型的MIDI档),但该音效卡是将音色存在卡上的RAM中,与现在的音效卡将音色存在主机板上的DRAM中还是有所不同,但目的都是避免将音色烧在卡上的ROM中以降低成本和提高使用弹性。目前市面上娱乐用音效卡的发声晶片中,以Ymf724/744/754的内建音色与效果器支援度最广,所用的音色与功能和S-YXG100相当类似,支援GM,XG与GS,对於这三种格式制成的MIDI档有一定的相容性。SB Live!(发声晶片为EMU10K1)属於另外一种典型,它具有强大的乐器音色替换功能,并具备分频取样能力,可以让使用者随心所欲制造各种音色。很可惜地是SB Live!只支援GM,且还不吃GM Reset指令,因此播放GS/XG规格的MIDI档,很难达到忠於原味的效果。其馀大部分的市面上的娱乐用音效卡MIDI音色都很贫弱,与其使用这些音色,不如直接去安装上述软体音源。
顺道一提,MS Windows98/Me和2000/XP都有内建软体音源,只要安装音效卡的WDM版驱动程式即可使用。其音色来源是Roland,只支援GM,不过品质相当差劲,听过之後实在很难让人相信是出自Roland的音色。
GM,GS,XG这三种常见的MIDI音源规格,以GM最为广泛。GM(General MIDI)是第一个以以音源标准化生产为目的共通统一规格。在GM尚未制定以前,各种MIDI器材之间通讯虽然都遵照MIDI标准,但是每台机器对同样的讯号反应可能都不同,在这台音源器上的第一号乐器是钢琴,跑到另一台音源器上可能变成了长笛,这样子就算有了MIDI档,流通性还是大受限制。为了解决这混乱的局面,在各厂商的协议下,1991年10月由位於美国的IMA(International MIDI Association)以及在日本的JMSC (Japanese MIDI Standard Committee),共同协议采用GM规格,作为音源的共通统一规格。GM音源规范了128个乐器以及鼓组的排列顺序与同时发音数至少要达到24,还有Reverb和Chorus这两个效果器的功能。
在GM尚未制定之前,已经有不少游戏使用MIDI作为配乐标准,当时Sierra公司率先使用音源器Roland MT-32作为发音音源。当时一台音源器就要比一台个人电脑还要贵了,因此能拥有MT-32最为游戏音源的使用者都是真正的玩家。在GM制定之後,Windows 95上市以前,也有很多DOS下的游戏都是使用GM音源作为MIDI标准。不过虽然是说支援GM,各大游戏厂商仍普遍使用Roland SC-55作为谱曲音源器。当时配乐水准特出的Lucasarts X-Wing、TIE Fighter,Blizzard的魔兽争霸II,Ganix美少女梦工厂II、Westwood的凯兰迪亚传说-命运之手等,搭配Roland SC-55真可谓馀音绕梁三日不绝与耳。
关於Roland制定的MIDI标准GS可视为GM的扩充。其实当GM制定前Roland SC-55已经上市了,GM的128个音色正是SC-55的前128个音色,而发音数,效果器也是量身订做,因此当GM制定後出厂的SC-55上都被打上GM字样,这也是为什麼游戏厂商纷纷以SC-55作为GM配乐标准的原因。XG是Roland的死对头YAMAHA後来提出的规格,同样相容於GM,且YAMAHA支援XG的音源普遍具备TG300B Mode,其实这就是GS Mode,只是YAMAHA打死不愿意在自己的器材打上GS字样。而GM2是1999年提出的GM扩充标准,有著256个音色与更多的效果器。虽然看到Roland就会想到GS,想到YAMAHA就会提到XG,但这些格式都是死的,并没有制定音色资料,因此真正的播放效果还是要看各音源的支援度与规格,并非支援某特定规格的音源听起来就一定是怎样怎样,还是要以该音源器的规格与发声机制为主。
MIDI在日本最为风行,很多业馀的玩家常常把电玩音乐用耳朵把旋律抓出来再谱成MIDI档,这个过程叫做耳copy。一些热门的游戏,常常同一个曲子就有几十种不同版本的MIDI档,展现各编曲家的创意与技巧。我曾经在Roland的首页看到每年举办一次的MIDI作曲大赛,竞赛内容包括日本与台湾民谣编曲,参赛者都是一些小学生,可见MIDI在日本有多麼普遍。目前最新的MIDI规格是GM Lite,对象是手机铃声,是GM标准的精简版。
结语
拉拉杂杂讲了一大堆,从数位化讲到CD再讲到各种储存媒介和数位音乐与电脑的关系,希望能让读者对於数位音乐有初步的认识。以上这些资料全部取材自网路上,网址文後附上。希望这点心得对拓展各位的视野有所帮助。最後要感谢网友Tiberius和JamesT的大力协助,提供了丰富的资料与技术支援,为这篇文章增色不少。