发烧论坛

注册

 

返回列表 12345678» / 33
发新话题 回复该主题

计算芯片的发展将让普通CD战胜LP [复制链接]

查看: 50333|回复: 320
1#
各位朋友,假如有一天你听别人说LP的声音比CD好很多,而下决心投身LP行列的时候,请不要把手中收藏的众多绝版CD处理掉。因为在这几年里面,由于计算机技术的快速发展,现在最新的高级CD唱机将会播出比80年代的CD唱机好n倍的声音。这个听上去有点像天方夜谭,但实际上这是真的,请听我详细道来。

不考虑混音、平衡的不同,现在支持LP的众多烧友所批评CD的缺点,也就是说因为CD格式的取样率和Bit数不够高,导致还原的波形和真实的差别,要比LP的模拟方式大。

的确,上述这个观点对于80年代CD播放机刚刚面世的时候,或许是对的。为什么?原因是,如下图:

[upload=jpg]Upload/200411169152929375.jpg[/upload]

虚线表示的是真实的声音信号,上面的几个黑点表示是CD格式里面的取样点,假如我们用直线把这些取样点连在一起,作为CD输出的声音曲线,那么从图中就可以看出,这样的输出信号,真的和实际的信号比起来,差别很大。并且很多攻击CD格式的说法,都是用这幅图来作为例子的。

不过也不要小看这种生成输出信号的方法,在数值分析里面,这种方法称为“分段线性插值”,这种算法是一种效率很高、计算速度非常快的算法。在80年代的时候,由于计算芯片的技术还远远不够现在这么发达,所以当时很多解码芯片,很可能(这里只能说很可能,因为每种芯片的制造厂家所采用的解码技术都属于是商业秘密,我没办法知道)就是采用类似的这种线性插值法进行运算的。并且由于CD的格式是每秒有44100个插值点,所以尽管采用这种已经是很简单的算法了,但是这么多的插值点对于当时的解码CPU来讲,我估计也是够呛的(据我所知甚致有的比较廉价的芯片,干脆每两个插值点扔掉一个,也就是说仅仅取其中的22050个数据点进行运算)。可想而之这样的解码芯片,怎么可能会有好声出呢?

有的朋友可能会说,看一些科普介绍文章说,很多解码芯片都是用“曲线”来代替上述的直线的。对,“以曲代直”正是现代芯片的核心问题。考虑到电路设计的可能性,D/A转换一般以多项式的形式来实现比较简便,n次多项式f(x) 是这样定义的:

[upload=jpg]Upload/200411169502580362.jpg[/upload]

其中x是变量,所有的a0,a1,…,an称为系数。它在二维坐标平面里面的图像就是一条曲线。解码芯片的任务就是通过给定的几个数据点,运算出一个多项式(也就是算出各个系数),使得这个多项式的图像:(1)经过给定的那几个数据点;(2)这个多项式曲线要尽量和这些数据点所在的原始的信号曲线吻合。

(未完待续)
分享 转发
TOP
2#

yxiao 在 2004-11-19 23:29:17 发表的内容
本不想再和这位朋友争论了,根本是对牛弹琴。但这位朋友实在是太能能装蒜了,有些朋友的思想比较容易产生混乱,所以有必要向大家澄清一下事实。我将努力用比较通俗的语言向大家解释,以便更多的朋友能够了解问题的所在,更多的朋友能够参与进来。

1、没有任何一种算法在任何时候都是绝对的优或绝对的劣。譬如,一组由1,-1,1,-1,1,-1……组成的PCM编码,可能代表一组方型波或者锯齿型波,那么假设现在有三种算法,算法A把这样的PCM编码解码为正弦波,算法B把这样的PCM编码解码为方型波,算法C把这样的PCM编码解码为锯齿型波,那么,我们怎么比较算法 A、B和C 的优劣呢?显然简单的“计算公式”是行不通的,因为在第一种情况下,算法B最优、算法A居中、算法C最劣;而在第二种情况下,算法C最优、算法A居中、算法B最劣。

2、既然我们已经知道我们不可能针对任意连续曲线提供一重“万能”的计算公式,那么我们是不是就不可能客观地评价这些算法的优劣呢。万幸的是,任何一种模拟量的曲线(例如音频曲线),都具有一定的数学特征,例如前面的1,-1序列如果是从音频曲线编码出来的,再假定我们已经知道多数音频曲线不太可能象方波或锯齿波那么“呲牙咧嘴”而是比较柔和一些,那么显然,这时我们“差不多”就可以知道三种算法中较好的一种应当是算法A。这里用到的数学方法是概率统计学,而上面提到的模拟量的曲线“数学特征”的取得,来自于我们声学工程师的经验。

3、从上面的讨论,朋友们已经看出了一种算法以及与之相关的评估体系的选用,与算法的用途直接相关。不存在一种万能的算法,可以一般地优于其他对手,事实上,适合语音、人声还原的算法就不一定适合器乐的解码还原,因为他们具有不同的“数学特征”。也许这也是不同品牌的CD解码器具有不同风格的原因之一吧。

先说这些吧。


还是先把二进制数转换为十进制吧,我的讨论是基于十进制实数域。
TOP
3#

基本上没有看懂上面的讨论,隐隐约约觉得是搞应用数学的人用数学专业知识侵入了音频数字信号处理领域,但又犯了点概念错误。于是大家有了争论,有趣的事,其实双方关注的核心根本就不在一个点上。

至于是否有误导的嫌疑,我觉得并不会有太多问题,因为专业人士各有各得观点,一时半会改变不了;非专业的人即使再叫好,也不会学到什么,因为根本就无法复述,更不用说应用了。

作为菜鸟,忍不住问个自己比较感兴趣的问题,国内CD机(比如Spark,欧博之类的),在设计时是否考虑到了这方面的问题,他们是否使用了自己独有的算法?
TOP
4#

楼上的朋友,的确以信号分析的工程师来看我的叙述,肯定会不地道的。的确您也描述了现在通用的数模转换方法,是正确的。我前面以为一些厂家采用的再取样等技术,是我所描述的样子,这个的确是由于我不了解情况所造成的错误。



但是,至于我提出的算法有没有用,可不可行,我前面已经给出叙述和例子。并且有足够资格的专家也告诉我,绝对可以做下去,所以我这里无须理会您对我的算法的任何评论。

不妨详细一点:尽管您可以说,现在没有人这样做(实际上,有,不过你不知道)——那是否就意味着这个方法没前途呢?相反,假如使用我这种算法,然后再搭配您所描述的再一次超取样的方法,那么我觉得起码最终输出的结果不会比现在的差,对吧?

至于我是否因为这样就没有资格探讨这方面的问题呢?一方面,因为我打算把这个问题给弄完整,所以我肯定会补充这方面的知识的;另一方面,我们一般的习惯是由电子方面的同行把要解决创新的问题转化为数学的语言告诉我们,然后我们做出来之后交还给他们转化为他们领域里面的描述。他们不会因为我不太懂得他们专业而对我有看法,而我也不会因为他们缺乏更强大的应用数学理论而不耐烦。对于他们在数学上的疑问,我都会跟他们详细解释,就像在这个论坛上一样。

您别以为我在这里空口无凭胡说八道,我是玩真的。甚至,我以前还真的玩过不大不小的一次。这里我不是想显耀什么,您可以看看《通信学报》03年11月那期我关于CDMA零相关序列编码的论文,估计按照您的眼光,保证您看完之后会大骂:kao,这样的“外行文章”都能上核心期刊?!——您可以尽管骂,不过就是这样的文章,它的结果却超越了同时期日本人和国内一位专家的两个最新的结果(它们都是发表在IEEE的Electronic Letters上的)。我没用任何关系,也不用导师推荐,甚至没用其他人帮我,我是靠自己拼出来的。尽管别人的用词很专业,但是我不怕,将有这个专业的同行帮我修改用词表述。

最后我也想说一说,为何国内的应用学科的发展总是比国外的要慢一拍:那是因为国内的圈子意识有点严重了,“内行”的总喜欢排斥“外行”的意见,一看不地道或很陌生就认为别人在胡说八道。的确这边EE的老师也说过我的描述缺乏信号处理专业的思维,但是他们却很欢迎我这个算法,并且打算辅助我把这个想法用他们的方式完善出来。资深民工朋友是普林斯顿EE毕业的,科班出身,我看过他主页上的论文,尽管我对他对我的批评方式持保留态度,但是看了他的论文之后,我深知创新、做别人没做过的事情的重要性。我觉得,假如按您这种方式来看待新的观点,那么信号分析这个领域真的就被禁锢在狭隘的思维里,不得发展。

我对于信号分析真的还有很多东西要学。不过也是EE的老师告诉我,尽管他之前没想过有我这样方法,不过我算的是正确的,并且绝对是可以做下去的。所以,我绝对坚持我的算法,并且充满信心。
TOP
5#

enrique 在 2004-11-20 19:39:28 发表的内容
楼主的曲线拟合在数学上是有效的,但工程上,还要考虑实际的情况。最基本的采样定理告诉我们,采样频率一定的情况下,所采样的信号频率最高只能是采样频率的一半。这样用44.1Khz的采样频率去采样的话,高于22khz的频率就完全不能回复出来。即使用曲线拟合也不行,因为在两个采样点中,可能就有一个突变,而曲线拟合总是要更光滑,趋向于用低频信号来拟合采样点。
虽然我们听不到20Khz以上的声音,但这部分声音会对听觉产生影响,比如定位,比如泛音,还有烧友喜欢说的“空气感”,“贵气”等。要恢复出20Khz以上的录音,就不得不采用超过44khz的采样频率,这就是SACD和DVD-Audio采用高采样频率的意义。
楼主的数学水平和钻研精神还是值得敬佩的。


为什么有效?有效性的评估标准是什么?

他的公式成立需要满足一些什么条件?音频曲线满足这样的条件吗?音频曲线为了满足这样的条件我们的楼主“理所当然”地作了什么样的简化?

这个简化的过程有任何的理论根据吗?这个过程会产生什么样的误差?这个误差有任何的评估方法吗?

这种误差的本质是什么?对音频还原产生什么样的影响?

还有很多很多……

这是最理想的情形,就是假定楼主的数学模型、算法、误差估计公式完全正确(象EE老兄所猜测的那样)的前提下,他辛辛苦苦地努力的目标就是去逼近一条本来就有误差的、而且误差不能评估的因而更无从控制的近似曲线。
最后编辑yxiao
TOP
6#

开心果 在 2004-11-19 21:47:09 发表的内容
很好的贴。所以我想请楼主解决一个问题:某段曲线用44.1千赫兹的取样频率取了20个点的值,归一化后的数值如下。请楼主用你的办法把取了样的那部分曲线较完整的恢复出来。如果不行,请说个理由。


开心果朋友,您要的结果已经算出来了,下面就是插值多项式在那20个数值点区间的图像,红色的点表示您原来给的数据点,由于系里的服务器也没有安装Hermite插值的插件,所以我用的是单项式基插值多项式,它们的效果差不多的:

[upload=jpg]Upload/200411202382647906.jpg[/upload]

从计算的结果来看,我估计您原来的原始信号曲线可能不属于声波的曲线。为什么呢?

请看看最后一个点和最前头一个点,插值多项式的曲线产生了极大的振幅,也就是说突然产生了极大的误差。

可能有朋友就觉得奇怪了:“你不是说插值多项式对于任何音频曲线都有极小的误差的吗?”——这个问题的答案是:任何音频曲线不等价于任何曲线——音频曲线是由一系列不同频率的正弦、余弦波线性叠加而成,由误差公式可以证明,把正余弦函数代进去算,它的误差数量级前面的系数(也就是f(x)的n+1次导数)是很小的有界值,它是收敛的;但是假如随便代进一条不是音频曲线的曲线,那么那项系数在某些点就可能会变得十分大,可能是发散的,使得最后的误差值变得不可以忽略(就像在这个例子里面的头尾两个点那样),这种现象在数值分析里称为Runge现象。

所以说,为什么我这么强调插值多项式对于音频曲线的奇妙作用,而不把它推广到其它范围,就是是因为音频曲线的特殊性质。

当然,由于我不知道开心果朋友的那条原始曲线,我也不敢绝对地说原始曲线不是音频曲线,也可能这个误差是由于插值多项式的次数还不够高(19次,对于单项式基插值来说是不高的)。
最后编辑felixcat
TOP
7#

开心果朋友,MATLAB里面有专门的命令包可以自动计算Hermite插值多项式等等插值算法。由于我的机器上没有装这个额外的工具包(要另外收钱),所以等阵子我去系里的工作站上把它画出来,所以请您稍候几个小时。
TOP
8#

felixcat 在 2004-11-19 12:00:50 发表的内容
恩,这个问题是很有研究前途的。对于电子乐器和真实乐器的问题,就拿电子钢琴和真正的钢琴来作例子,为什么波形再准的电子钢琴,声音也不够真实的钢琴来得自然呢?

那是因为,对于电子琴,我制造芯片的时候,所能够做的就是把钢琴的每一个单音的波形都set到芯片里面去,然后弹奏电子琴的时候,我按一些键,那么芯片所能够做的就是把这些键所代表的单音的那些波形,按照按键的力度乘上系数后再叠加起来,最多高级一些,再用一些DSP模式把合成的和声美化一下而已。

而至于真实钢琴,那么则不同了:我按多个音的时候,产生的综合效果还会受到钢琴的反射板、共鸣板、固定岗弦的那块钢板等等物体的影响,因此出来的波形肯定不是那几个单音的波形相加的结果,而是变得异常复杂,甚至是无法预测的。所以说几乎所有的电子乐器都会败在这个方面。



这有点像数字图形领域的光线的全局渲染(Global illumination),今后的数字图像的真实度全仰仗这种东西的具体算法了,楼主对此有何高见。

另外,对于电子乐器,我只是外行,就愚见来看,现在的电子声音都是真实乐器的采样,也就是你弹奏的时候如同发一个指令给一台真实的钢琴,然后计算机播放先前录制的声音,这是否说对于弹一个音的时候,可以做到相当的完美。而以后要做的就是尽可能多的采样,或者以一种光能传递的方式来用软件计算所反射的各种情况,也不是没有可能。像现在的交响乐乐音色Vienna Symphonic Library,及 Sonic Implants 的弦乐合奏都是已经在朝这个方向大步的跃进了。

我相信科学。目前来讲数字技术在图像领域已有了相当令人满意的结果,无论是考虑了视觉心理学还是数据。而音频领域,我姑且相信,主要是衷心希望不久的将来有一个可以达到LP的声音而价格及使用性能如CD的产品。
最后编辑darajan
TOP
9#

梧桐树 在 2004-11-20 21:24:10 发表的内容
基本上没有看懂上面的讨论,隐隐约约觉得是搞应用数学的人用数学专业知识侵入了音频数字信号处理领域,但又犯了点概念错误。于是大家有了争论,有趣的事,其实双方关注的核心根本就不在一个点上。

至于是否有误导的嫌疑,我觉得并不会有太多问题,因为专业人士各有各得观点,一时半会改变不了;非专业的人即使再叫好,也不会学到什么,因为根本就无法复述,更不用说应用了。

作为菜鸟,忍不住问个自己比较感兴趣的问题,国内CD机(比如Spark,欧博之类的),在设计时是否考虑到了这方面的问题,他们是否使用了自己独有的算法?




国产CD都是采用一些通用DAC芯片,自己并无这方面的技术,现在最流行的Crystal 或者BB公司的,都属于Delta Sigma算法。

国外某些公司有自己研发DAC的实力,所以顶级CD多半来自于技术创新,比如Wadia,Meridian 等。而不是猛料,或者靠人为调声。
TOP
10#

技术的发展会让LP的圈子变的更小,但不会让热爱LP的人抛弃她。
TOP
发新话题 回复该主题