Ziel ist es, die von einer Audio-CD lieferbare
Tonqualität beizubehalten bei einer Datenrate
von
2 × 192 KBit/sec.
Dies entspricht einer Reduktion um den Faktor
1378/384 3.5 .
Somit kann ein CD-ROM-Laufwerk mit einer Transferleistung
von etwa 1.5 MBit/sec zur Wiedergabe eines Spielfilms
etwa
seiner Bandbreite für den
komprimierten Ton,
seiner Bandbreite für
das komprimierte Video verwenden.
Zunächst werden die PCM-Abtastwerte mit
Hilfe einer Fouriertransformation aus dem Zeitbereich
in den Frequenzbereich umgesetzt.
Hierzu unterteilt man die Abtastwerte in Frames mit
einer definierten Anzahl von Abtastwerten.
Z.B. entspricht ein Frame mit 384 Abtastwerten
bei einer Abtastfrequenz von 44100 Hz einer Länge
von 8.7 msec.
Aus der Spektralanalyse geht hervor,
welche Frequenzen in welchem Maße an dem
Ausgangssignal beteiligt sind.
Der Frequenzraum wird nun in 32 Subbänder à
20000/32 = 625 Hz partitioniert.
In jedem Subband werden 12 Abtastwerte ermittelt.
Auf Grundlage eines psychoakustischen Modells wird nun der
Maskierungseffekt von jeder Frequenz in jedem Band
im Verhältnis zu jeder anderen Frequenz errechnet und
für jedes Band die geeignete Auflösung eingestellt.
Grundlage des psychoakustischen Modells ist die gegenseitige Überlagerung
zusammengesetzter Töne.
Z.B. maskiert eine Frequenz von 1000 Hz einen
um mind. 18 dB leiseren Ton
von 1100 Hz oder einen um mind. 45 dB leiseren Ton
von 2000 Hz.
In der Umgebung einer starken Frequenz ist daher ein gewisser, nicht
hörbarer Grundpegel einer anderen Frequenz
akzeptabel, die nun weniger Bits zur Kodierung
ihrer restlichen Amplitude benötigt.
Zusätzlich verfügt der Encoder über das Wissen,
daß unser Gehörorgan für hohe und niedrige
Frequenzen nicht gleich sensibel ist.
Der Peak liegt zwischen 2000 und 4000 Hz, wo auch
die menschliche Stimme angesiedelt ist.
Zum Abschluß erfolgen Lauflängenkodierung und
Huffman-Kodierung, und alle kodierten
Spektralkomponenten werden zu Frames zusammengesetzt, deren
Abfolge das kodierte Audiosignal ergibt.
Die MPEG-Audio-Layer II und III erreichen durch
komplexere Implementierungen eine
weitergehende Kompression bei verbesserter Performanz
(d.h. Qualität pro Bitrate).
Abtastfrequenzen von 32 kHz, 44.1 kHz und 48 kHz und Datenraten
zwischen 128 kBit/s und 384 kBit/s für Stereo sind vorgesehen.
Bei 128 kBit/sec liefert Layer II ``störende Differenzen'',
Layer III ``wahrnehmbare Differenzen''.
MPEG-2 bietet als Weiterführung von MPEG-1 zusätzlich
Mehrkanal- und Surround-Sound sowie die Abtastraten 16 kHz und
24 kHz.
Bei Hardware-unterstützter Realzeit-Kompression
treten Verzögerungen von etwa 100 ms auf.
Bei 2-Weg-Interviews gelten allerdings schon 20 ms als störend.