- 第1章 MPEGの概要
- 第2章 MPEG-1
- 第3章 MPEG-2
- 3.1 MPEG-2システム - 3.2 MPEG-2ビデオ - 3.3 MPEG-2オーディオ - 第4章 MPEG-4
- 第5章 MPEG-7
- 付録1. 参考文献
- 付録2. 関連ホームページ
第3章 MPEG-2 - 3.3 MPEG-2オーディオ
3.3.1 MPEG-2オーディオBC(Backward Compatible)
MPEG-2オーディオBCは、MPEG-1オーディオを3チャンネル以上のマルチチャンネルオーディオ、マルチリンガル対応に拡張した規格と、16、22.05、24kHzという低サンプリング周波数に対応するように拡張した規格の2つからなる。特に前者で符号化されたビットストリームは、MPEG-1オーディオのデコーダでも再生できる、即ち後方互換性をもっている。そのためこの方式はMPEG-2オーディオBC(Backward Compatible)と呼ばれている。符号化アルゴリズムは、基本的にMPEG-1オーディオと同じであり、3つのレイヤ構成から成っていることも全く同様なので、説明を省略する。
MPEG-2オーディオBCは、DVDの圧縮オーディオ方式のひとつとして選定されており、主にヨーロッパ向けのDVDプレーヤでは、標準的に搭載されている。
3.3.2 MPEG-2 AAC(Advanced Audio Coding)
3.3.2.1 概要
MPEG-2 AACは、MPEG-1オーディオとの互換性を排除することによって、高音質・高圧縮率を達成したマルチチャンネル対応のオーディオ符号化方式である。5チャンネルのオーディオ信号を320kbpsで符号化した際の音質は、EBUが規定する放送用品質(5段階評価で4.0以上)を満足している。また64kbps/chでの音質はもちろん、ステレオで96kbps(48kbps/ch)という超低ビットレートでもCDに近いレベルの音質を得ることができる。
入力のサンプリング周波数は8kHzから96kHzと、非常に広い範囲に対応している。また最大で、48チャンネルのオーディオ信号、15個のLFE(Low Frequency Enhancement)チャンネル、カップリングチャンネル(マルチリンガルを実現)、汎用データストリームを伝送できる。
符号化アルゴリズムは、その複雑度・構造に応じてMain、LC(Low Complexity)、SSR(Scalable Sampling Rate)の3つのプロファイルが用意されている。
AACは様々なアプリケーションへの採用が期待されているが、特に日本国内では、BSのディジタル放送、地上波のディジタルTV放送で使用されることが決定している。また、MPEG-4オーディオのコアとなるアルゴリズムのひとつとしても取り入れられている。
3.3.2.2 AACのプロファイル
(1) Main
ゲイン制御部を除くすべての信号処理ブロックが存在する。必要なRAM容量、計算量とも最大であるが、最も高音質が得られる。
(2) LC:Low Complexity
Mainプロファイルから予測部を削除し、TNSの予測次数にも制限を加えている。これによりRAM容量、計算量の削減を図っている。なおMainと同じくゲイン制御部はもっていない。
(3) SSR:Scalable Sampling Rate
4バンドのサブバンド分析フィルタを含むゲイン制御部をもつ。予測部は存在しない。またTNSの予測次数も制限されている。4分割サブバンドフィルタ出力の内、例えば最低域バンドのみをデコード、低域側2つのバンドのみをデコードというように、スケーラブルな構造をもつデコーダを構成できる。
3.3.2.3 AACのアルゴリズム
MPEG-2 AACエンコーダのアルゴリズムを説明する。MPEG-1オーディオ及びMPEG-2オーディオBC(レイヤ・、・)がサブバンド分析フィルタを基本としていたのに対し、AACは適応ブロック長切換えMDCT(Modified Discrete Cosine Transform)を基本としている。3.3.2.2で述べたように、AACはアルゴリズムの複雑度・構造に応じて3つのプロファイルが用意されているが、ここでは最も高音質の得られるMainプロファイルの処理について説明する。
AACエンコーダのブロック図を示す。

入力されたオーディオ信号は、所定のサンプル数毎にブロック化され、それを1フレームとして処理される。まず入力フレームを心理聴覚分析部でFFTして周波数スペクトルを求め、それを元に聴覚のマスキングを計算し、予め設定された周波数帯域ごとの許容量子化雑音電力と、そのフレームに対する心理聴覚エントロピー(Perceptual Entropy: PE)と呼ぶパラメータを求める。PEは、リスナーが雑音を知覚することがないように、そのフレームを量子化するのに必要な総ビット数と考えてよい。またPEは、音楽信号のアタック部のように信号レベルが急激に増大するところで大きな値を取るという特性がある。そこで、PEの値の急変部を元にしてMDCTの変換ブロック長を決定している。
MDCT部は、心理聴覚分析部で決定されたブロック長で入力オーディオ信号を周波数スペクトル(以降MDCT係数と呼ぶ)に変換する。変換ブロック長を、入力信号に応じて適応的に切換える処理(適応ブロック長切換)は、プリエコーと呼ばれる聴覚的に有害な雑音を抑圧するために必要な処理である。
続いてMDCT係数は、TNS(Temporal Noise Shaping)部に渡される。TNSは、MDCT係数を時間軸上の信号であるかのように見立てて線形予測を行い、MDCT係数に対して予測フィルタリングを行う。この処理により、デコーダ側で逆MDCTして得られる波形に含まれる量子化雑音は、信号レベルの大きなところに集まるようになる。
予測部はMainプロファイルだけで使用される。MDCT係数1本ごとに、過去2フレームにおける量子化されたMDCT係数から現在のMDCT係数の値を予測し、その予測残差を求める。特に入力信号が定常的である場合、非常に大きな予測ゲインが得られ、MDCT係数の電力(分散)が小さくなる。同じ量子化雑音電力が許容されるならば、量子化対象の分散が小さい方が必要なビット数を少なくできるので、圧縮する際に有利である。
TNS、予測部と処理されたMDCT係数は、予め設定された周波数帯域ごとの複数本でグループ化され、これを単位として量子化が行われる。これらMDCT係数のグループをスケールファクタバンドと呼んでいる。スケールファクタバンドは、聴覚の特性に合わせて低域側では狭く、高域側では広くなるように設定されている。また量子化を行う前に、このフレームで使用可能なビット数を、平均ビットレート、心理聴覚分析部で求めたPEの値、及びビットリザーバ(これにより擬似的な可変ビットレートを実現)に蓄積されているビット数を元に算出しておく。
量子化部では、心理聴覚分析部で求めたスケールファクタバンド毎の許容量子化雑音電力を下回ることを目標に量子化を行う。量子化されたMDCT係数は、更にハフマン符号化を施され冗長度が削減される。この量子化・ハフマン符号化の処理は反復ループで行われ、実際に生成される符号量がフレームに割当てられたビット数を下回るまで繰返される。

