9.5 MPEG-Audio

Ziel ist es, die von einer Audio-CD lieferbare Tonqualität beizubehalten bei einer Datenrate von 2 × 192 KBit/sec. Dies entspricht einer Reduktion um den Faktor 1378/384 $\approx$ 3.5 . Somit kann ein CD-ROM-Laufwerk mit einer Transferleistung von etwa 1.5 MBit/sec zur Wiedergabe eines Spielfilms etwa ${\frac{1}{4}}$ seiner Bandbreite für den komprimierten Ton, ${\frac{3}{4}}$ seiner Bandbreite für das komprimierte Video verwenden.
Zunächst werden die PCM-Abtastwerte mit Hilfe einer Fouriertransformation aus dem Zeitbereich in den Frequenzbereich umgesetzt. Hierzu unterteilt man die Abtastwerte in Frames mit einer definierten Anzahl von Abtastwerten. Z.B. entspricht ein Frame mit 384 Abtastwerten bei einer Abtastfrequenz von 44100 Hz einer Länge von 8.7 msec. Aus der Spektralanalyse geht hervor, welche Frequenzen in welchem Maße an dem Ausgangssignal beteiligt sind. Der Frequenzraum wird nun in 32 Subbänder à 20000/32 = 625 Hz partitioniert. In jedem Subband werden 12 Abtastwerte ermittelt. Auf Grundlage eines psychoakustischen Modells wird nun der Maskierungseffekt von jeder Frequenz in jedem Band im Verhältnis zu jeder anderen Frequenz errechnet und für jedes Band die geeignete Auflösung eingestellt. Grundlage des psychoakustischen Modells ist die gegenseitige Überlagerung zusammengesetzter Töne. Z.B. maskiert eine Frequenz von 1000 Hz einen um mind. 18 dB leiseren Ton von 1100 Hz oder einen um mind. 45 dB leiseren Ton von 2000 Hz. In der Umgebung einer starken Frequenz ist daher ein gewisser, nicht hörbarer Grundpegel einer anderen Frequenz akzeptabel, die nun weniger Bits zur Kodierung ihrer restlichen Amplitude benötigt.
Zusätzlich verfügt der Encoder über das Wissen, daß unser Gehörorgan für hohe und niedrige Frequenzen nicht gleich sensibel ist. Der Peak liegt zwischen 2000 und 4000 Hz, wo auch die menschliche Stimme angesiedelt ist.
Zum Abschluß erfolgen Lauflängenkodierung und Huffman-Kodierung, und alle kodierten Spektralkomponenten werden zu Frames zusammengesetzt, deren Abfolge das kodierte Audiosignal ergibt.
Die MPEG-Audio-Layer II und III erreichen durch komplexere Implementierungen eine weitergehende Kompression bei verbesserter Performanz (d.h. Qualität pro Bitrate).
Abtastfrequenzen von 32 kHz, 44.1 kHz und 48 kHz und Datenraten zwischen 128 kBit/s und 384 kBit/s für Stereo sind vorgesehen. Bei 128 kBit/sec liefert Layer II ``störende Differenzen'', Layer III ``wahrnehmbare Differenzen''. MPEG-2 bietet als Weiterführung von MPEG-1 zusätzlich Mehrkanal- und Surround-Sound sowie die Abtastraten 16 kHz und 24 kHz.
Bei Hardware-unterstützter Realzeit-Kompression treten Verzögerungen von etwa 100 ms auf. Bei 2-Weg-Interviews gelten allerdings schon 20 ms als störend.

	Datenrate	Kompression
Layer I	384 kBit/sec	3-4
Layer II	128 kBit/sec	10-12
Layer III	64 kBit/sec	20-22

Typische Datenraten bei MPEG-1-Audio