音频技术全攻略

悉尼 · 发表于 2008-11-9 09:06:15

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

您需要登录才可以下载或查看，没有账号？注册用户

×

随着互联网的普及，音乐爱好者的音乐资源有了迅猛的扩充。搜集了一些音频方面的知识，大家共享。

悉尼 · 发表于 2008-11-9 09:09:28

一、推荐经常使用的以方便为特色的音频播放软件——千千静听

近来，越来越多的用户扔掉了　Winamp，开始使用国产软件“千千静听”，这是一款相当精致的国产数字音频播放软件，采用高保真、高性能的DirectSound音频回放技术，资源占用率很少，启动较快，笔者感觉很不错，功能不逊于Winamp和Foobar2000，小小总结了一下千千静听功能里的十大必杀技，与大家分享：

1、国产软件。 完全正宗的国产软件，纯中文显示，请大家都来支持国货。

2、占内存少。 相信用户们对传统播放软件最大的意见就是占内存太大，而千千静听正好没有这个缺点。将它与其它同类软件相比，大家就明白了。

比较项目	Winamp	Foobar	千千
CPU 占用率	1%-4%	3%-7%	1%-5%
最大化时内存占用	13.3M	6.9M	4.5M
最小化时内存占用	4.3M	2.9M	2M
启动时间	3-5 秒	1-3 秒	2-3 秒

而且，千千静听启动也很快，如果在选项里去掉淡入淡出窗口，启动还会更快捷。

3、它的支持功能更加完善，多种格式的歌曲都支持。

比较项目	Winamp	Foobar	千千
mp3	√	√	√
mp3PRO	√	×	√
MP4	√	√	√
WMA	√	×	√
APE	√	√	√
MPC	×	√	√
OGG	√	√	√
WAV	√	√	√
FLAC	√	√	√
RM	√	×	√
AIF	√	√	√
AU	√	√	√

4、音质比以前的winmap好 用户普遍反映千千静听的音质听起来更好。音质的好坏除去音响、声卡等硬件设施，就播放器来说就看它所用的解码器。值得注意的是，音质和音效是不一样的，音效是指对解码出来后的声音进行处理，或者说美化声音，但同时也会使声音失真。　　千千用的解码器是mpg123，而且用的是最新的版本，并且千千使用的是自主研发的全新音频引擎，采用DirectSound和Kernel Streaming音频回放、多种比特方式输出，同时也支持多种音效和DFX插件，使得声音效果更为丰富和逼真。

5、格式转换简单。 关于格式转换，Winamp使用起来十分的复杂，一般用户很难掌握，而Foobar虽然功能强大，但同样面向的是高级用户。而用千千就特别容易了，在播放列表里在需要转换格式的曲目上点击右键-"转换格式"，就可以在mp3、wav和wma三种格式之间自由转换(可以一边播放，一边转换格式)，高级用户还可以对采样率、压缩率等项目进行配置，如果安装了Nero6，还可以转换音质最好的AAC+呢。利用这个功能，还可以将rm格式转换成mp3、将视频中的声音提取为mp3(千千可以播放能播放支持格式的视频中的声音，例如VCD里面的配音)。

6、千千静听有集成的歌词显示插件，并且插件少。 其它播放软件所支持的许多格式都是要通过插件的方式来实现，虽然插件有它功能强大，简单易用等优点，可是一来插件的使用会占用大量的系统资源，二来安装插件也颇为麻烦。千千静听不用安装任何插件，就可以支持MP3/(mp3PRO)、AAC/(AAC+)、M4A/MP4、WMA、APE、MPC、OGG、WAVE、CD、FLAC、RM、TTA、AIFF、AU等几乎所有的音频格式和多种MOD音乐格式，还支持CUE音轨索引文件(对于那些HI-FI友们喜欢的APE格式来说，这一点很重要哦)，而且千千同样可以支持Winamp2的音效插件。

7、半批量改变mp3的标签 这是个小功能，但是方便又快捷。具体操作是这样：在千千静听的MP3列表上点击右键，选择“文件信息”，从这里我们可以直接改变该MP3文件的标题、所属流派、艺术家等通用标签信息。你修改完一个以后，只要点击“保存到文件”按钮，就可以将这些信息嵌入MP3当中，按“上一首”、“下一首”即可继续修改邻近文件的标签信息，达到半批量修改目的。

8、歌词抓轨。 这是一个普遍受欢迎的小功能。在传统的播放器里，如果你想重复听某一句，只能到播放进度里去调整，常常不能准确地点支自己想听的地方。而千千静听的个功能更加的人性化，只要在歌词秀里用鼠标直接抓住那句歌词，歌曲播放器就可以自动播放你想听的那句歌。

9、界面多样。 用过千千静听的用户都对它那小巧的美观界面有深刻印象，这种界面操作简易，皮肤又好看，还有透明和淡入淡出效果，歌词库的背景可以设置为全透明，只留下歌词随伴着音乐在缓缓流动，界面十分灵动漂亮。

10、对电脑配置要求不高。 其它国外的播放软件都需要较高的电及配置才能使用，而千千静听平易近人，听对电脑配置的要求并不高，连稍低些的普通配置也可以运行，满足了不少低配置电脑用户的需求。千千静听就是这样一款功能全，实用，外观漂亮的软件，有网友说，千千静听=免费+多种格式支持+歌词秀+格式转换+其它许多实用的功能，而且还是国产，因此用户们都喜欢用它。

悉尼 · 发表于 2008-11-9 09:20:39

二、什么是ape？

　相信谁都知道CD音乐格式了！这是目前公认的音质最好的载体，但代价也是巨大的，一张80分钟的CD，如果不经过任何压缩，直接用软件抓轨（CD光盘的具体音乐信息在电脑的WINDOWS操作系统中是不可见的，就是说CD音乐的内容不是文件形式保存在光盘上，而是“音轨”的形式），把CD音乐由不可见的光盘上抓下来保存在硬盘上的过程就叫“抓轨”）得到的WAV文件也有800MB左右。如此巨大的文件尽管音质好但并不利于在网络上传输！

于是各种各样的压缩技术出现了，最有名的当数“MP3”了，还有“RM、WMA”等，这些压缩是对某些片断进行取样而成，属于“有损压缩”。320KB的MP3尽管号称“接近CD音质”，但只要接入稍微好一点的功放和音箱，高音飘忽、低音混沌的毛病立马便会原形毕露！对于一些高品质的HI-FI音乐唱片来说，MP3等于失去了意义~~~~那么如何在文件大小和音质好坏之间取得最好的平衡呢？

APE来了！它可以将庞大的WAV 压缩成一半大小！甚至可以将早期的单声道录音唱片压缩成四分之一！更重要的是它并非采用mp3等抽样压缩方式，而是“无损压缩”，可以用软件monkey's audio完全的还原成wav，然后可以用 cd刻录成接近原cd音质的cd（真拗口！）在普通cd机上播放；或者对于有大硬盘的朋友来说可以直接保存在电脑里，用软件播放，加块好一点的声卡，也可以“hi-fi”一把了！

一般从网上下载的APE资源，都带有一个CUE文件。APE和CUE是文件的扩展名，这两个文件的文件名必须是相同的才可以。CUE文件是可以用“记事本”打开和修改的，里面记录的是APE文件中不同曲目的时间位置，有了它，一个APE文件就可以分成原有的曲目，来顺序或选择播放了。CUE文件，可以用鼠标直接拖到千千静听的播放列表中，曲目的名字就会自动出现了。

亮~亮 · 发表于 2008-11-9 09:55:49

:_y184ll 研究下下。

悉尼 · 发表于 2008-11-9 10:25:39

三、"古老"的MP3

大名鼎鼎的MP3采用MPEG Audio Layer 3 技术，将声音用 1∶10 甚至 1∶12 的压缩率压缩，采样率为44kHz、比特率为112kbit/s，音响频宽为20-20kHz。

　　MP3 是一种语音压缩格式，压缩比大，失真率小，近CD 音质,是现在电脑收藏和播放采用最多的一种格式。所谓MP3是MPEG-1 LAYER 3的简写，它所使用的技术是在VCD（MPEG-1）的音频压缩技术上发展出的第三代，而不是MPEG-3。在128Kbps高质模式下，音质基本没有走样，只是整个频响范围稍稍变窄，空间感也略差，感觉上好象把原来加的“大厅”的混响效果变成了“中厅”，低频的弹性受到了一些影响，略显浑浊，一些长尾音的打击乐器的余音也稍稍变短，不过看在12倍的压缩比上，这一切都是可以接受的。

　　MP3以牺牲部分音质的方式来换取较小的文件体积。由于其体积小，一首歌一般在4-5M之间，所以很容易复制，在互连网上流传。MP3的制作编辑都离不开电脑，原则上MP3的音源最后使用的格式应该都是WAV文件，不管你是CD、MIDI以及从声卡Line in进来的声音信号，都要转换到WAV格式，然后借助电脑，使用专门的MP3制作软件对音源文件进行编码压缩，这可以算是一种软压缩，它有自己完整的ID3规定。在每一个MP3文件中你可以写入一些信息（包括歌曲名、歌手的名字、专辑、发行年份.

在制作MP3的编码器软件插件中，LAME无疑是目前最优秀的MP3编码软件，与传统的MP3编码器相比，它能够更好地利用人耳遮蔽效应，并且支持VBR（可变码率）以及joint stero（联合立体声）技术，从而在一定的压缩比达到了更好的听音效果。所以，使用LAME编码的MP3具有细节丰富、高频失真小的优点。幸运的是，在“千千静听”中，内置了LAME编码器，可以设置压缩MP3的选项。

接下来，我们来详细了解一下MP3技术。

悉尼 · 发表于 2008-11-9 10:29:07

四、优秀成熟的编码——MP3

MP3作为目前最为普及的音频压缩格式，为大家所大量接受，各种与MP3相关的软件产品层出不穷，而且更多的硬件产品也开始支持MP3，我们能够买到的VCD/DVD播放机都很多都能够支持MP3，还有更多的便携的MP3播放器等等，虽然几大音乐商极其反感这种开放的格式，但也无法阻止这种音频压缩的格式的生存与流传。

MP3发展已经有10个年头了，他是MPEG(MPEG：Moving Picture Experts Group) Audio Layer-3的简称，是MPEG1的衍生编码方案，1993年由德国Fraunhofer IIS研究院和汤姆生公司合作发展成功。MP3可以做到12:1的惊人压缩比并保持基本可听的音质，在当年硬盘天价的日子里，MP3迅速被用户接受，随着网络的普及，MP3被数以亿计的用户接受。MP3编码技术的发布之初其实是非常不完善的，由于缺乏对声音和人耳听觉的研究，早期的mp3编码器几乎全是以粗暴方式来编码，音质破坏严重。随着新技术的不断导入，mp3编码技术一次一次的被改良，其中有2次重大技术上的改进。

VBR：MP3格式的文件有一个有意思的特征，就是可以边读边放，这也符合流媒体的最基本特征。也就是说播放器可以不用预读文件的全部内容就可以播放，读到哪里播放到哪里，即使是文件有部分损坏。虽然mp3可以有文件头，但对于mp3格式的文件却不是很重要，正因为这种特性，决定了MP3文件的每一段每一帧都可以单独的平均数据速率，而无需特别的解码方案。于是出现了一种叫VBR（Variable bitrate，动态数据速率）的技术，可以让MP3文件的每一段甚至每一帧都可以有单独的bitrate，这样做的好处就是在保证音质的前提下最大程度的限制了文件的大小。这种技术的优越性是显而易见的，但要运用确实是一件难事，因为这要求编码器知道如何为每一段分配bitrate，这对没有波形分析的编码器而言，这种技术如同虚设。正是如此，VBR技术并没有一出现就显得光彩夺目。

听觉模型的导入：专家们通过长期的声学研究，发现人耳存在遮蔽效应。声音信号实际是一种能量波，在空气或其他媒介中传播，人耳对声音能量的多少即响度或声压最直接的反应就是听到这个声音的大小，我们称它为响度，表示响度这种能量的单位为分贝（dB）。即使是同样响度的声音，人们也会因为它们频率不同而感觉到声音大小不同。人耳最容易听到的就是4000Hz的频率，不管频率是否增高或降低，即使是响度在相同的情况下，大家都会觉得声音在变小。但响度降到一定程度时，人耳就听不到了，每一个频率都有着不同的值。

可以看到这条曲线基本成一个V字型，当频率超过15000Hz时，人耳的会感觉到声音很小，很多听觉不是很好的人，根本就听不到20000Hz的频率，不管响度有多大。当人耳同时听到两个不同频率、不同响度的声音时，响度较小的那个也会被忽略，例如：在白天我们很难听到电脑中散热风扇的声音，晚上却成了噪声源，根据这种原理，编码器可以过滤掉很多听不到的声音，以简化信息复杂度，增加压缩比，而不明显的降低音质。这种遮蔽被称为同时遮蔽效应。但声音A被声音B遮蔽，如果A处于B为中心的遮蔽范围内，遮蔽会更明显,这个范围叫临界带宽。每一种频率的临界带宽都不一样，频率越高的临界带宽越宽。

频率(Hz)	临界带宽(Hz)	频率(Hz)	临界带宽(Hz)
50	80	1850	280
150	100	2150	320
350	100	2500	380
450	110	3400	550
570	120	4000	700
700	140	4800	900
840	150	5800	1100
1000	160	7000	1300
1170	190	8500	1800
1370	210	10500	2500
1600	240	13500	3500

根据这种效应，专家们设计出人耳听觉心理模型，这个模型被导入到mp3编码中后，导致了一场翻天覆地的音质革命，mp3编码技术一直背负着音质差的恶名，但这个恶名现在已经逐渐被洗脱。到了此时，一直被埋没的VBR技术光彩四射，配合心理模型的运用便现实出强大的诱惑力与杀伤力。

长期来，很多人对MP3印象不好，更多人认为WMA的最佳音质要好过MP3，这种说法是不正确的，在中高码率下，编码得当的MP3要比WMA优秀很多，可以非常接近CD音质，在不太好的硬件设备支持下，没有多少人可以区分两者的差异，这不是神话故事，尽管你以前盲听就可以很轻松区分MP3和CD，但现在你难保证你可以分辨正确。因为MP3是优秀的编码，以前被埋没了。

B、制作利器——LAME
要制作出高音质的MP3靠以前广为流传的MP3编码器是不行的。我们强烈推荐使用LAME，为什么文章前段着重写了一些看似无关的技术性文字描述，因为这些就是LAME与一般MP3编码器与众不同的地方，她支持几乎所有能够采用到MP3编码中的技术，包括我们花了不少笔墨描述的东西。LAME支持CBR（固定码率）和VBR（动态码率，还有一个效果不是很出众的ABR），LAME是MP3史上具有里程碑意义的软件，LAME是一个Command line程序，象DOS程序一样需要手工输入，而且参数及其复杂，但可很方便的供其他程序调用，LAME同时也提供了一个DLL版本，但我们认为不如EXE版本的好，所以忽略不提。不要被LAME复杂的参数所吓倒，下面的文章中我们会提示如何操作来达到一劳永逸的效果。我们需要粗略的了解一下LAME的参数。

LAME其实真正要用到的参数就几个而已。

VBR压缩级别参数：[-V] 指定VBR的压缩品质，范围为0-9（数字越小品质越高），预设值为4。
码率参数：[-b] 指定流量变动的下限，预设为32Kbps。[-B] 指定流量变动的上限，预设为320Kbps。注意 -b 和-B 的大小写差异。如果使用在CBR编码模式中，[-b]所指定的码率就是固定码率大小，可供指定的码率大小可以为：16 24 32 40 48 56 64 80 96 112 128 160 192 224 256 320。

高品质编码模式参数：[-h] 高品质编码模式。这个选项在 VBR 压缩模式中是预设开启的。CBR编码模式中是关闭的。

精度参数：[-q] 指定频率资料量化时的精确度，范围是为0-9（数字越小品质越高），预设值为2。如果在使用-q 0参数是觉得编码速度慢得过份，请使用默认值。如果编码的曲子是钢琴或者小提琴、古筝二胡这类细节很丰富的乐器独奏，我们推荐你就是耐着性子也要用-q 0参数，虽然慢点，但值得。

声道模式参数：[-m] 立体声压缩模式，细分参数分别有 s:Stereo j:Joint Stereo f:Force ms_stereo m:Mono。当使用VBR编码并把品质设为4-9和使用CBR编码流量小于160 Kbps时，预设为j(Joint Stereo)。其余时候预设为s(Stereo)。

通过长期的使用，我们给出2个参数使用建议。

CBR 模式编码的推荐参数：-b -m s -h （为码率数值）。VBR 模式编码推荐参数：-V 0。
在新版本的LAME中（3.90后），LAME提供了全新的--alt-preset系列预置参数，这组参数最大的好处就是不用再去记忆那些繁多的参数，而提供最佳化的选择。
　　CBR模式：
　　--alt-preset insane 320kbps CBR模式，音质最好，体积最大。

　　VBR模式：
　　--alt-preset extreme 平均Bitrate范围在192～256kbps之间，音质接近insane，体积小了一些，但比 －V 0 编码效率要低。

--alt-preset系列参数提供比老参数更优秀的音质，但编码效率却低了很多，您需要更强劲的CPU支持才行，而相对比老参数提高相对不是很多，在乎您的取舍了。

　　了解这么多就足够了，，，，

悉尼 · 发表于 2008-11-9 10:33:44

五、更好地欣赏MP3音频

用比较新版本的WINAMP，是播放MP3很大众的选择（高手们倾向于FOOLBAR）。在众多MP3播放插件中，DFX是DSP软件里最常见的一种。使用DFX不单不会提高WINAMP 播放MP3的音质，反而会失真下降。

一般人之所以听了DFX渲染后的MP3会觉得比原来的MP3好听，其实是一种声音心理学上的“主观音效接受”。注意，是“音效”而不是“音质”，所谓的提高音效是指用一些矢量化算法把音场以数码化方式扩大，让人耳听到的MP3音乐仿佛源自某些场景而来，比如音乐会，运动场，俱乐部等等。当然，改变音效的同时也就对音质进行了二次污染。所以，音乐发烧友是不提倡用DFX，DEE， ENHANCER，WAVE 3D等DSP软件的，因为DSP插件数字味太浓，没有音乐味了。

悉尼：假如你的耳机、音箱是极低等设备，加渲染反而可能有更好的效果，低等动物推荐使用（闪～～）。

悉尼 · 发表于 2008-11-9 10:37:25

六、动手调节你计算机上或MP3机里的声音效果

图形EQ（Graphic EQ），就是我们在Winamp等播放软件上见到的那种调节器。大家看到调节器上都标着记号，说明是什么频段。民用软件常用的是十段均衡，就是调节十个频段。很多声卡都内置了十频段的硬件EQ，能够对十个频段进行增益/衰减的操作。有些初学者不懂EQ的调节使用方法，这里以用户较多的板载声卡ALC 650为例详细讲解一下。但是由于板载声卡性能毕竟不如好一点的独立声卡，因此其频响范围达不到20Hz～20kHz，所以设置界面稍有区别。

很多声卡都将这项功能做到了驱动面板上，打开EQ（均衡器）的工具栏，就会出现调整界面。

一般来说声卡都有预设的几种EQ方案，适合不同类型的音乐。初学者可以按照预设的方案来进行EQ调节。但是对于DIYer来说，如何能够最大限度地满足自己的耳朵，就是一个挑战了。下面我们就来看看如何DIY自己的EQ。

一、基本原则

首先我们必须了解各频段是干什么用的，以及这些频段对声音的影响是怎样的。

●超低音：20Hz～80Hz

调节得当时声音强而有力。能控制低音鼓、管风琴和贝司的声音。过度提升会导致音乐低音变得混浊。大多数音箱对于这一范围的声音不能回放，因此不用太在意。

●低音：80Hz～200Hz

是声音的基础部分，其能量占整个音频能量的70%，是表现音乐风格的重要部分。调节得当时，低音弹性很好，声音丰满柔和，不足时声音单薄，没有厚度。过度提升时会使声音发闷，明亮度下降，鼻音增强，有些年代久远的录音的感觉。

●中低音：200Hz～500Hz

是声音的主要结构部分，人声位于这个位置。不足时，人声会被音乐压制，声音干涩且软绵绵的，适当提升时会感到人声变得浑厚有力，提高人声的力度和厚度。提升过度时会使低音变得生硬，人声与音乐脱节，且清晰度受到影响。

●中音：500Hz～3kHz

大多数乐器的泛音在这一区域，是打击乐器的特征音。调节得当时声音清晰度好且声音很亮，不足时声音模糊不清。过度提升时会产生一种金属声。

●中高音：3kHz～5kHz

是弦乐的特征音（拉弦乐的擦弦声，弹拨乐拨弦的声音等）。不足时声音没有穿透力，过度则会损失细节。

●高音：5kHz～8kHz

是影响声音层次感的区域。过度提升可以做出人声的齿音，但是耐听度下降。

●极高音：8kHz～20kHz

调节得当时，三角铁声音的通透感和颗粒感高，过度提升会使声音不自然，易烧毁高频单元。

二、调节方法

基本原则讲完了，下面该说说对于特定的声音应该如何提高：

●人的声音

人声是一种全频带的“乐器”，主要集中在中频区域。如果声音很薄，男声可以在300Hz附近进行增益，女声则是在400Hz附近进行增益。

●钢琴的声音

钢琴声的频宽一般在27Hz~880Hz之间。因此适当提升中音可以提升钢琴声的厚度——也是在300Hz～400Hz的区域，提升低音的时候应该注意不要过度，否则声音乱作一团。在500Hz～800Hz区域提升可以做出高音区的空气感和颗粒感，但是副作用是声音可能会有些脱节。笔者的意见是对于钢琴声不要刻意去调它，因为经验告诉我们作用并不大。

●弦乐的声音

弦乐声大多集中在中高频部分。因此，增益3kHz～5kHz之间的区域，可以做出弦乐声的细节来，但是仍然要适度。增益8kHz～10kHz区域可以使弦乐声立起来，变得像刀一样锋利。

●打击乐的声音

打击乐声多以低音为主，因此不足时，声音最好两头跷——低音，高音都给点增益。不同的打击乐器有不同的频点，需要大家仔细去找。还是那句话，不要过度。

当你调节完毕后，将结果保存下来，你就拥有了自己的EQ方案。试试看，效果应该不错。只要你有耐心，总会找到适合你的EQ设置，从某种程度上说，你已经充分挖掘了声卡（或MP3播放器）的价值。

悉尼 · 发表于 2008-11-9 10:41:12

七、有关音频编码的一般性知识

　　自然界中的声音非常复杂，波形极其复杂，通常我们采用的是脉冲代码调制编码，即PCM编码。PCM通过抽样、量化、编码三个步骤将连续变化的模拟信号转换为数字编码。

1、什么是采样率和采样大小（位/bit）？

　　声音其实是一种能量波，因此也有频率和振幅的特征，频率对应于时间轴线，振幅对应于电平轴线。波是无限光滑的，弦线可以看成由无数点组成，由于存储空间是相对有限的，数字编码过程中，必须对弦线的点进行采样。采样的过程就是抽取某点的频率值，很显然，在一秒中内抽取的点越多，获取得频率信息更丰富，为了复原波形，一次振动中，必须有2个点的采样，人耳能够感觉到的最高频率为20kHz，因此要满足人耳的听觉要求，则需要至少每秒进行40k次采样，用40kHz表达，这个40kHz就是采样率。我们常见的CD，采样率为44.1kHz。光有频率信息是不够的，我们还必须获得该频率的能量值并量化，用于表示信号强度。量化电平数为2的整数次幂，我们常见的CD位16bit的采样大小，即2的16次方。采样大小相对采样率更难理解，因为要显得抽象点，举个简单例子：假设对一个波进行8次采样，采样点分别对应的能量值分别为A1-A8，但我们只使用2bit的采样大小，结果我们只能保留A1-A8中4个点的值而舍弃另外4个。如果我们进行3bit的采样大小，则刚好记录下8个点的所有信息。采样率和采样大小的值越大，记录的波形更接近原始信号。

2、有损和无损

　　根据采样率和采样大小可以得知，相对自然界的信号，音频编码最多只能做到无限接近，至少目前的技术只能这样了，相对自然界的信号，任何数字音频编码方案都是有损的，因为无法完全还原。在计算机应用中，能够达到最高保真水平的就是PCM编码，被广泛用于素材保存及音乐欣赏，CD、DVD以及我们常见的WAV文件中均有应用。因此，PCM约定俗成了无损编码，因为PCM代表了数字音频中最佳的保真水准，并不意味着PCM就能够确保信号绝对保真，PCM也只能做到最大程度的无限接近。我们而习惯性的把MP3列入有损音频编码范畴，是相对PCM编码的。强调编码的相对性的有损和无损，是为了告诉大家，要做到真正的无损是困难的，就像用数字去表达圆周率，不管精度多高，也只是无限接近，而不是真正等于圆周率的值。

　　3、为什么要使用音频压缩技术

　　要算一个PCM音频流的码率是一件很轻松的事情，采样率值×采样大小值×声道数 bps。一个采样率为44.1KHz，采样大小为16bit，双声道的PCM编码的WAV文件，它的数据速率则为 44.1K×16×2 =1411.2 Kbps。我们常说128K的MP3，对应的WAV的参数，就是这个1411.2 Kbps，这个参数也被称为数据带宽，它和ADSL中的带宽是一个概念。将码率除以8,就可以得到这个WAV的数据速率，即176.4KB/s。这表示存储一秒钟采样率为44.1KHz，采样大小为16bit，双声道的PCM编码的音频信号，需要176.4KB的空间，1分钟则约为10.34M，这对大部分用户是不可接受的，尤其是喜欢在电脑上听音乐的朋友，要降低磁盘占用，只有2种方法，降低采样指标或者压缩。降低指标是不可取的，因此专家们研发了各种压缩方案。由于用途和针对的目标市场不一样，各种音频压缩编码所达到的音质和压缩比都不一样，在后面的文章中我们都会一一提到。有一点是可以肯定的，他们都压缩过。

　　4、频率与采样率的关系

　　采样率表示了每秒对原始信号采样的次数，我们常见到的音频文件采样率多为44.1KHz，这意味着什么呢？假设我们有2段正弦波信号，分别为20Hz和20KHz，长度均为一秒钟，以对应我们能听到的最低频和最高频，分别对这两段信号进行40KHz的采样，我们可以得到一个什么样的结果呢？结果是：20Hz的信号每次振动被采样了40K/20=2000次，而20K的信号每次振动只有2次采样。显然，在相同的采样率下，记录低频的信息远比高频的详细。这也是为什么有些音响发烧友指责CD有数码声不够真实的原因，CD的44.1KHz采样也无法保证高频信号被较好记录。要较好的记录高频信号，看来需要更高的采样率，于是有些朋友在捕捉CD音轨的时候使用48KHz的采样率，这是不可取的！这其实对音质没有任何好处，对抓轨软件来说，保持和CD提供的44.1KHz一样的采样率才是最佳音质的保证之一，而不是去提高它。较高的采样率只有相对模拟信号的时候才有用，如果被采样的信号是数字的，请不要去尝试提高采样率。

　　5、流特征

　　随着网络的发展，人们对在线收听音乐提出了要求，因此也要求音频文件能够一边读一边播放，而不需要把这个文件全部读出后然后回放，这样就可以做到不用下载就可以实现收听了。也可以做到一边编码一边播放，正是这种特征，可以实现在线的直播，架设自己的数字广播电台成为了现实。

四、各种主流音频编码（或格式）的介绍

　　1、PCM编码

　　PCM 脉冲编码调制是Pulse Code Modulation的缩写。前面的文字我们提到了PCM大致的工作流程，我们不需要关心PCM最终编码采用的是什么计算方式，我们只需要知道PCM编码的音频流的优点和缺点就可以了。PCM编码的最大的优点就是音质好，最大的缺点就是体积大。我们常见的Audio CD就采用了PCM编码，一张光盘的容量只能容纳72分钟的音乐信息。

　　2、WAVE

　　这是一种古老的音频文件格式，由微软开发。WAV是一种文件格式，符合 PIFF Resource Interchange File Format规范。所有的WAV都有一个文件头，这个文件头音频流的编码参数。WAV对音频流的编码没有硬性规定，除了PCM之外，还有几乎所有支持ACM规范的编码都可以为WAV的音频流进行编码。很多朋友没有这个概念，我们拿AVI做个示范，因为AVI和WAV在文件结构上是非常相似的，不过AVI多了一个视频流而已。我们接触到的AVI有很多种，因此我们经常需要安装一些Decode才能观看一些AVI，我们接触到比较多的DivX就是一种视频编码，AVI可以采用DivX编码来压缩视频流，当然也可以使用其他的编码压缩。同样，WAV也可以使用多种音频编码来压缩其音频流，不过我们常见的都是音频流被PCM编码处理的WAV，但这不表示WAV只能使用PCM编码，MP3编码同样也可以运用在WAV中，和AVI一样，只要安装好了相应的Decode，就可以欣赏这些WAV了。

在Windows平台下，基于PCM编码的WAV是被支持得最好的音频格式，所有音频软件都能完美支持，由于本身可以达到较高的音质的要求，因此，WAV也是音乐编辑创作的首选格式，适合保存音乐素材。因此，基于PCM编码的WAV被作为了一种中介的格式，常常使用在其他编码的相互转换之中，例如MP3转换成WMA。

　　3、 MP3编码

　　请参阅楼上的楼上（第5楼）一文

　　4、OGG编码

　　网络上出现了一种叫Ogg Vorbis的音频编码，号称MP3杀手！Ogg Vorbis究竟什么来头呢？OGG是一个庞大的多媒体开发计划的项目名称，将涉及视频音频等方面的编码开发。整个OGG项目计划的目的就是向任何人提供完全免费多媒体编码方案！OGG的信念就是：OPEN！FREE！Vorbis这个词汇是特里·普拉特柴特的幻想小说《Small Gods》中的一个"花花公子"人物名。这个词汇成为了OGG项目中音频编码的正式命名。目前Vorbis已经开发成功，并且开发出了编码器。

　　Ogg Vorbis是高质量的音频编码方案，官方数据显示：Ogg Vorbis可以在相对较低的数据速率下实现比MP3更好的音质！Ogg Vorbis这种编码也远比90年代开发成功的MP3先进，她可以支持多声道，这意味着什么？这意味着Ogg Vorbis在SACD、DTSCD、DVD AUDIO抓轨软件（目前这种软件还没有）的支持下，可以对所有的声道进行编码，而不是MP3只能编码2个声道。多声道音乐的兴起，给音乐欣赏带来了革命性的变化，尤其在欣赏交响时，会带来更多临场感。这场革命性的变化是MP3无法适应的。

　　和MP3一样，Ogg Vorbis是一种灵活开放的音频编码，能够在编码方案已经固定下来后还能对音质进行明显的调节和新算法的改良。因此，它的声音质量将会越来越好，和MP3相似，Ogg Vorbis更像一个音频编码框架，可以不断导入新技术逐步完善。和MP3一样，OGG也支持VBR。

　　5、MPC 编码

　　MPC是又是另外一个令人刮目相看的实力派选手，它的普及过程非常低调，也没有什么复杂的背景故事，她的出现目的就只有一个，更小的体积更好的音质！MPC以前被称作MP+，很显然，可以看出她针对的竞争对手是谁。但是，只要用过这种编码的人都会有个深刻的印象，就是她出众的音质。

　　6、mp3PRO 编码

2001年6月14日，美国汤姆森多媒体公司(Thomson Multimedia SA)与佛朗赫弗协会(Fraunhofer Institute)于6月14日发布了一种新的音乐格式版本，名称为mp3PRO，这是一种基于mp3编码技术的改良方案，从官方公布的特征看来确实相当吸引人。从各方面的资料显示，mp3PRO并不是一种全新的格式，完全是基于传统mp3编码技术的一种改良，本身最大的技术亮点就在于SBR（Spectral Band Replication 频段复制），这是一种新的音频编码增强算法。它提供了改善低位率情况下音频和语音编码的性能的可能。这种方法可在指定的位率下增加音频的带宽或改善编码效率。SBR最大的优势就是在低数据速率下实现非常高效的编码，与传统的编码技术不同的是，SBR更像是一种后处理技术，因此解码器的算法的优劣直接影响到音质的好坏。高频实际上是由解码器（播放器）产生的，SBR编码的数据更像是一种产生高频的命令集，或者称为指导性的信号源，这有点象Midi的工作方式。

我们可以看到，mp3PRO其实是一种mp3信号流和SBR信号流的混合数据流编码。有关资料显示，SBR技术可以改善低数据流量下的高频音质，改善程度约为30%，我们不管这个30%是如何得来的，但可以事先预知这种改善可以让64kbps的mp3达到128kbps的mp3的音质水平（注：在相同的编码条件下，数据速率的提升和音质的提升不是成正比的，至少人耳听觉上是这样的），这和官方声称的64kbps的mp3PRO可以媲美128kbps的mp3的宣传基本是吻合的。

　　7、WMA

　　WMA就是Windows Media Audio编码后的文件格式，由微软开发，WMA针对的不是单机市场，是网络！竞争对手就是网络媒体市场中著名的Real Networks。微软声称，在只有64kbps的码率情况下，WMA可以达到接近CD的音质。和以往的编码不同，WMA支持防复制功能，她支持通过Windows Media Rights Manager 加入保护，可以限制播放时间和播放次数甚至于播放的机器等等。WMA支持流技术，即一边读一边播放，因此WMA可以很轻松的实现在线广播，由于是微软的杰作，因此，微软在Windows中加入了对WMA的支持，WMA有着优秀的技术特征，在微软的大力推广下，这种格式被越来越多的人所接受。

　　8、RA

　　RA就是RealAudio格式，这是各位网虫接触得非常多的一种格式，大部分音乐网站的在线试听都是采用了RealAudio，这种格式完全针对的就是网络上的媒体市场，支持非常丰富的功能。最大的闪烁点就是这种格式可以根据听众的带宽来控制自己的码率，在保证流畅的前提下尽可能提高音质。RA可以支持多种音频编码，包括ATRAC3。和WMA一样，RA不但都支持边读边放，也同样支持使用特殊协议来隐匿文件的真实网络地址，从而实现只在线播放而不提供下载的欣赏方式。这对唱片公司和唱片销售公司很重要，在各方的大力推广下，RA和WMA是目前互联网上，用于在线试听最多的音频媒体格式。

　　9、APE

　　APE是Monkey's Audio提供的一种无损压缩格式。Monkey's Audio提供了Winamp的插件支持，因此这就意味着压缩后的文件不再是单纯的压缩格式，而是和MP3一样可以播放的音频文件格式。这种格式的压缩比远低于其他格式，但能够做到真正无损，因此获得了不少发烧用户的青睐。在现有不少无损压缩方案种，APE是一种有着突出性能的格式，令人满意的压缩比以及飞快的压缩速度，成为了不少朋友私下交流发烧音乐的唯一选择！

悉尼 · 发表于 2008-11-9 10:46:35

八、声音的原理

从我们出生的时候开始（甚至从我们还没出生的时候开始），我们就会感受到身边各种各样的声音，正因为如此，我们似乎都把声音当作理所当然的事情而并不去特别在意。但是，您可曾想过，如果我们的所生存的世界上没有了声音，那将会变成什么样子？没有鸟儿的鸣叫，没有孩子的欢笑，没有风声，没有雨声，甚至没有计算机风扇的嗡嗡声和敲键盘的劈啪声……那将是多么的可怕！

从物理上讲，声音是由物体振动产生的一种波，并通过空气作用于我们的耳鼓，使我们能够感知。声音有四种性质，即高低、强弱、长短和音质。

由于物体的振动有快有慢，所以发出的声音也就有高有低。但是，我们的耳朵并不能听到所有频率的声音，一般来说，正常人能够听到每秒振动20次到20000次的声波，但这一范围还会随着人们年龄的增长逐渐变窄。为纪念19世纪伟大的物理学家Heinrich Rudolf Hertz，我们将物体每秒振动的次数称作“赫兹”，缩写为Hz，也就是说，人的听力一般为20Hz到20KHz，低于这个频率的声波称做次声波，高于这个频率的声波称作超声波。

声音的强弱是由振幅决定的，振幅是代表物体振动强度的特定单位，一般用分贝（dB）来表示。与通常的测量单位不同，分贝并不是一个固定的标准，而是一个相对的比值。如我们第一次听到的声音为0dB，其它声音就可以用与这个参考值的关系来表示。人类通常的听力范围在0dB-120dB左右。

由于一个物体不可能总是一成不变的振动，所以它的频率和振幅都会随着时间的改变而改变，并最终趋于静止。我们把一声音的发展过程分为四个阶段，分别是触发、衰减、保持和消失。这四个阶段我们统称为“包络”，包络的发生时间，也就是一个声音的长短。

声音最有趣的地方在于它的音质，这也是声音最复杂的一个特性。让我们来做一个实验：蒙上您的眼睛然后用钢琴和小提琴以相同的时值分别演奏标准A（即440Hz），我打赌，您一定会感觉到明显的不同。这是为什么呢？因为物体振动时并不仅仅产生同一种波。

以小提琴为例，当它的A弦振动时，并不仅仅是整根弦在振动，这根弦的二分之一、三分之一、四分之一、五分之一……处都在振动着。于是，整根弦的振动产生了最主要的频率，我们称之为基音，而弦长的二分之一、三分之一、四分之一等处的振动则产生了一些次要的频率，我们称之为泛音。不光小提琴的琴弦如此，任何物理的振动都是如此。

总的来说，如果一个物体振动所发出的泛音为基音的整数倍，这个音就会具有清晰可辨的音高，我们称之为乐音，如钢琴，小提琴等发出的都是乐音；如果泛音是基音的非整数倍，这个音就不具备清晰可辨的音高，我们称之为噪音，如汽车发动机、计算机风扇等发出的都是噪音。

所有这些按顺序排列的泛音，我们称作泛音列。由于不同的物体可以具有不同数量的泛音列，这些泛音列近乎无限的排列组合也就够成了这一物体特殊的音质。

读到这里，您也许会奇怪我为什么为了声音这一普通的现象耗费这么多的笔墨？其实原因很简单--音乐，是声音的艺术。

没有人能够确定音乐究竟在什么时候产生，但有一点毫无疑问，人类的历史能够追溯到多久，音乐的历史就有多久，当第一个原始人直立起来用双手捶打胸膛并高声喊叫的时候，他就用最原始的“音乐”抒发了心中的感情。

纯粹意义上的“音乐”起初是与巫术和宗教活动联系在一起的，舜作“韶”、禹作“大夏”、武王作“大武”，“乐”被孔夫子列为“六艺”之一，说它具有定国安邦之义。但从实质上讲，这些音乐无疑都是祭祀用的宗教音乐。直到后来，当人民的生活水平逐渐提高，音乐才从宗教中渐渐脱离出来，成为一种独立的艺术。

人类科学技术的进步始终对音乐有着极其重要的影响：雕刻的掌握使人们制出骨笛；冶金技术的完善让人们造出编钟；学会了复杂的机械知识人们才能发明钢琴。这些被新技术催生的新乐器在各个方面都响着当时的音乐体制，而新的音乐体制又要求人们使用更新的技术来改良或发展新的乐器，周而复始，循环不止。

账号		自动登录	找回密码
密码			注册用户