AAC tech
前几天小朋友问我AAC是什么。呃,我决定以抄书来回答。
首先是来自《The Rouledge Guide to Music Technology》里对AAC的解释:
A data compression scheme intended for audio systems and in wide use with portable digital music players such as Apple’s iPod. AAC was first specified in 1997 as part of the MPEG-2 family of international standards known formally as ISO/IEC 13818-7. It is noted for providing better playback than MP3 files for audio frequencies above 16K Hz and having more robust coding efficiency for both stationary and transient signals. This translates to slightly better audio reproduction than MP3 and faster access times for music playback and recovery. A secure version of AAC——“Protected AAC”——is used to provide file downloads from Apple’s iTunes music store, and protect against the copying of copyrighted music file.
以下是摘自《流媒体技术与应用》/ 胡泽 赵新梅(我超级喜欢上他俩的课!) 中《AAC技术》一节:
AAC于1997年形成国际标准ISO 13818-7。在MPEG-2制定的早期,本来是想将其音频编码部分保持与MPEG-1兼容的,但后来为了适应演播电视的要求而将其定义成为一个可以获得更高质量的多声道音频标准,与MPEG-1不兼容,称为MPEG-2 AAC。AAC最初用于数字无线电,是一种非常高级的感知编码。AAC编码对以前的技术进行了改进,提高了编码效率。例如,一个比特率为98kbps的AAC系统,能提供与比特率为192kbps 的MPEG-1-LayerII系统一样的主观音质。
- AAC的工作方式
AAC之所以不兼容MP3,关键是它使用了不同的压缩处理算法,并且增加了许多新的特性。AAC使用了一种非常灵活的熵编码核心去传输编码频谱数据。
我们开看看MPEG-2 AAC是如何工作的。首先,音频数据通过多相积分滤波(PQF)被分离为四个标准的子带。对于每一个子带都传输一个独立的增益,作为边信息(side information)。在增益控制下的子带数据然后以长度为256的MDCT来(对于瞬间条件长度为32)转换。在MDCT中使用的窗口是Kaiser-Bessel derived(KBD)或正弦窗,两者的频谱特性不相同,可适应不同的信号。在瞬时条件下使用较短的窗口以改善时间分辨率。
MDCT系数通过两个预报帧获得预报,对于每一个频段使用一种独立的LMS-adapted(Least Mean Square最小均方)预报器。这改善了恒定信号的编码效率。预报后的残余被非均衡地量化并使用11种Huffman编码中的一种编码。
MPEG-2 AAC还包括许多可选的附加特性。最令人感兴趣的是暂时噪音抑制(Temporal Noise Shaping),该技术主要是对瞬间信号起作用。
- AAC标准的三个主要模式
主类——在计算机处理能力和存储器性能较高的情况下使用。
低复杂度类(LC)——在计算机的处理周期和存储器都有限的情况下使用。
可分级采样率类(SSR)——在需要可分级解码器的情况下适用。可分级解码器可设计成支持普通比特流中不同音质的电平,例如,分别用高或低的代价实现高或低的音质。
在给定比特率的情况下,不同的类,其编码复杂程度不同,音质也不同。比如,在数据速率为128kbps情况下,主类AAC编码器的结构比低复杂度类AAC的复杂,但能提供较好的音质。
像所有的感知编码方案一样,MPEG-2 AAC利用人类听觉系统中的信号掩蔽特性来减少数据总量。这样,量化噪声被分散到各个子带中,处在掩蔽域之下,无法被听到。图给出了MPEG-2 AAC系统的总体结构。图中的方框也可被称为编码算法中用来压缩数字音频信号的“工具”,其中的大多数工具都可在其他感知编码其中找到,只有两个例外:暂时噪声抑制器(TNS)和滤波器组。TNS使用后向自适应预测方法祛除由滤波器组工具产生的频带之间的冗余。时/频域编码的方法真正新颖之处在于,TNS通过频域预测而抑制时域中量化噪声的发送。预测技术是在话音编码系统中普通使用的技术。AAC技术受益于许多类型的音频信号都容易预测的事实,特别是声音信号,通过TNS编码性能会大为改善。
MPEG-2 AAC可提供48个主音频通道,采样频率可从8KHz到96KHz,16个低频效果通道,16个配音(多语言)通道和10个数据流。比较起来,ISO/MPEG-1第一层提供两个通道,第二层提供5.1通道(最大)。AAC不向后兼容第一、二层,因为MPEG-2 AAC的变换方式与MPEG-1音频编码不同。ISO/MPEG-1音频第三层采用综合滤波器组,是为了考虑兼容性,但造成一定的结构上的弱点,MPEG-2 AAC则采用完全的改进离散余弦变换(MDCT)。加上增大的窗口长度(每次转换由2048线代替原来的1152线)MDCT性能超过了以前编码方式中的滤波器组。通过选择MDCT能更好地控制量化分辨率,给顶的比特率可以得到更有效的利用。
MPEG-2 AAC在各顶的带宽的地比特率应用中,通过提供低采样速率扩展也提高了MPEG-1音频第三层模块的西呢能,由原16,22.05,24kHz采样频率增加到MPEG-1音频编码层定义的32,44.1,48kHz,比特率也向下扩展到8kbps。
AAC是MPEG-4中音频编码的重要工具。由于她能在给定比特率时提供更好的音质或在给定音质情况下采用更低的比特率,因此,建立在MPEG音频第三层压缩上的应用,例如,当前便携MP3播放器,都可以采用早期标准的AAC,特别是它在MPEG-4的流媒体应用中,在有限带宽上进行环绕声流媒体传输的优势将是不二的选择。
July 17th, 2007 at 1:18 am
靠,也不翻译下
July 17th, 2007 at 4:02 am
我终于理解了什么叫“都是中国字,但是我就是看不懂。”
July 17th, 2007 at 10:41 am
啊…我以为这些你都应该通吃呢……
September 19th, 2007 at 10:00 pm
[...] 流行的音频格式千千万,被更多使用的是一些压缩格式,例如:MP3,WMA,AAC,RA,(没有人下载wav吧……);这些压缩音频格式在数据量和音质上达到了不同的平衡,既适合网络传输,又不会损失过多的音质。具体它们谁有什么特点,有很多书从建模到编解码都讲得无比详细,我就不抄书了;其中,MP3和WMA估计是使用最多的吧;AAC是水果公司搞出来的,是目前公认的音质最好的音频格式,也建议各位多多使用。用IPOD的同学们估计对这个熟极了;而且也应该碰到过iTunes不理WMA的事情吧~ so,现在我们可以认为,除非是极差的player——差到能自己出问题算出噪声啊什么的之外,一般的播放软件,或者说支持这几类音频格式的播放软件,无甚区别。 [...]