Sprach-Koder werden durch subjektive Wahrnehmung der Sprachqualität (5 = excellent bis 1 = bad) nach dem Mean Opinion Score (MOS, ITU P.800) bewertet (siehe Abb. 3.4.1) .
Coder | f / kHz | Technik | MOS | Bandbreite |
G.711a: | 0,3 – 3,4 | ISDN, Europa | 4,1 | 64 kbps |
G.711u: | 0,3 – 3,4 | ISDN, USA | 4,1 | 64 kbps |
G.722: | 0,05 – 7 | ISDN, VoIP | 4,5 | 48 – 64 kbps |
G.723: | 0,3 – 3,4 | VoIP | 4,0 | 5,6 – 6,3 kbps |
G.726: | 0,3 – 3,4 | DECT | 3,85 – 4,2 | 16 – 40 kbps |
GSM: | 0,3 – 3,4 | Mobilfunk | 3,5 | 13 kbps |
G.711 ist der älteste Sprachkoder — er wurde 1965 von der ITU zugelassen.
→ PCM: Pulse Code Modulation
Um den relativen Quantisierungfehler bei kleinen Amplituden zu verringern wird die nichtlineare 13-Segment A-Kennlinie G.711a (siehe Abb. 3.4.3) verwendet, bei der kleine Signalamplituden feiner quantisiert werden als größere.
→ USA: 15-Segment μ-Kennlinie nach CCCIT G.711u
x | y |
±1 | ±128 |
±1∕2 | ±112 |
±1∕4 | ±96 |
±1∕8 | ±80 |
±1∕16 | ±64 |
±1∕32 | ±48 |
±1∕64 | ±32 |
μ-Kennlinie:
| |
±1∕128 | ±16 |
Für die binäre Kodierung der Amplidenwerte verwendet man von den 8 Bit
→ Daher 13-Segment-A-Kennlinie und nicht 14-Segment-Kennlinie
→ mit 3 Bits kann man maximal 8 Segmente pro Vorzeichen kodieren, damit lässt sich also die 15-Segment-μ-Kennlinie analog kodieren, wobei für Übergänge von der A- zur μ-Kennlinie eine Umkodierung notwendig ist
→ Die Quantisierungsstufen verdoppeln sich pro Segmentstufe zu größer werdenden (positiven) x-Werten
Beim ISDN wurde Breitbandsprachdienst „7 kHz audio-coding within 64 kbit/s“ mit dem Coder G.722 als High-Dynamic (HD) Telefonie eingeführt.
→ Es ist eine Kodierung nach der Adaptive Delta Pulse Code Modulation (ADPCM, siehe G.726).
Die Sprachdaten werden mit
→ Eine neue Funktion ist die Sprechpausenerkennung, bei denen Zeitabschnitten von Stille nicht übertragen werden.
Mit einem Prädiktionsverfahren (Algebraic Code Excited Linear Prediction, A-CELP) erreicht dieser Koder eine Bitrate von 5,6 oder 6,3 kBit/s bei einer etwas geringeren Sprachqualität als G.711.
→ Kompresion bei G.723 im Vergleich zu G.711 auf 10%
→ Analoge Audiobandbreite von 3,1 kHz mit 8 Bit
→ Für die Vorhersage des nächsten Sprachsignals ist Rechenleistung notwendig! Nur das Fehlersignal wird übertragen.
Der Koder nimmt die PCM-kodierten Sprqachdaten (nach G.711) und kodiert anstelle der tatsächlichen Signalwerte nur die Differenz benachbarter Signalwerte
→ ADPCM: Adaptive Delta Pulse Code Modulation
Ziel der Sprachkodierung ist auf der Empfangsseite eine subjektiv bestmögliche Reproduktion des Sprachsignals zu erreichen
→ Keine bitgenaue Wiedergabe wegen verlustbehafteter Kodierung
Kodeerregte lineare Prädiktion in GSM-Systemen mit dem RPE/LTP-LPC-Verfahren
1987 Kombination von drei Verfahren:
→ Parameter für ein Modell der Erzeugung menschlicher Sprache
→ Entfernen des quasi-periodischen Signalanteil (stimmhafte Anteile: Vokale, Nasale)
→ Langzeit-Prädiktions-Filter zur Entfernung längerdauernder statistischer Abhängigkeiten (Silben, Lautbildung)
→ Verlustbehaftete Kodierung durch das Weglassen subjektiv irrelevanter Sprachinformation des Restsignals
1988 und 1989 erfolgte eine Erweiterung:
→ Einsparung bei 35…45%, Max. 60%
→Abschalten der Datenübertragung für nicht VAD
→ Auf der Empfangsseite ein möglichst passendes Hintergrundgeräusch erzeugen (CN, Comfort Noise), damit keine digitale Stille existiert.
6Das Spektrum eines Gespräches reicht von 20 – 8000 Hz