3.4 Sprachkoder

Koder:

Sprach-Koder werden durch subjektive Wahrnehmung der Sprachqualität (5 = excellent bis 1 = bad) nach dem Mean Opinion Score (MOS, ITU P.800) bewertet (siehe Abb. 3.4.1) .


Coder f / kHz Technik MOS Bandbreite










G.711a: 0,3 – 3,4 ISDN, Europa 4,1 64 kbps
G.711u:0,3 – 3,4ISDN, USA 4,1 64 kbps
G.722: 0,05 – 7 ISDN, VoIP 4,5 48 – 64 kbps
G.723: 0,3 – 3,4VoIP 4,0 5,6 – 6,3 kbps
G.726: 0,3 – 3,4DECT 3,85 – 4,216 – 40 kbps
GSM: 0,3 – 3,4Mobilfunk 3,5 13 kbps

Abbildung 3.4.1: MOS der verschiedenen Sprach-Kodierer

3.4.1 Koder G.711

G.711:

G.711 ist der älteste Sprachkoder — er wurde 1965 von der ITU zugelassen.

PCM: Pulse Code Modulation


PIC
Abbildung 3.4.2: Puls-Code-Moduliertes PCM-Signal

Nichtlinear:

Um den relativen Quantisierungfehler bei kleinen Amplituden zu verringern wird die nichtlineare 13-Segment A-Kennlinie G.711a (siehe Abb. 3.4.3) verwendet, bei der kleine Signalamplituden feiner quantisiert werden als größere.

USA: 15-Segment μ-Kennlinie nach CCCIT G.711u


PIC
 
x y


±1 ±128
±12 ±112
±14 ±96
±18 ±80
±116 ±64
±132 ±48
±164 ±32
μ-Kennlinie:
±1128 ±16

Abbildung 3.4.3: 13-Segment A-Kennlinie, bzw 15-Segment μ-Kennlinie

Kodierung:

Für die binäre Kodierung der Amplidenwerte verwendet man von den 8 Bit

3.4.2 Koder G.722

G.722:

Beim ISDN wurde Breitbandsprachdienst „7 kHz audio-coding within 64 kbit/s“ mit dem Coder G.722 als High-Dynamic (HD) Telefonie eingeführt.

Es ist eine Kodierung nach der Adaptive Delta Pulse Code Modulation (ADPCM, siehe G.726).

Die Sprachdaten werden mit

Eine neue Funktion ist die Sprechpausenerkennung, bei denen Zeitabschnitten von Stille nicht übertragen werden.

3.4.3 Koder G.723

G.723:

Mit einem Prädiktionsverfahren (Algebraic Code Excited Linear Prediction, A-CELP) erreicht dieser Koder eine Bitrate von 5,6 oder 6,3 kBit/s bei einer etwas geringeren Sprachqualität als G.711.

Kompresion bei G.723 im Vergleich zu G.711 auf 10%


PIC
Abbildung 3.4.4: Vorhersage (Schätzung) des nächsten Signalwertes

Analoge Audiobandbreite von 3,1 kHz mit 8 Bit

Für die Vorhersage des nächsten Sprachsignals ist Rechenleistung notwendig! Nur das Fehlersignal wird übertragen.

3.4.4 Koder G.726

G.726:

Der Koder nimmt die PCM-kodierten Sprqachdaten (nach G.711) und kodiert anstelle der tatsächlichen Signalwerte nur die Differenz benachbarter Signalwerte

ADPCM: Adaptive Delta Pulse Code Modulation


PIC
Abbildung 3.4.5: Adaptive Delta Puls Code Moduliertes Signal

3.4.5 Koder GSM

GSM:

Ziel der Sprachkodierung ist auf der Empfangsseite eine subjektiv bestmögliche Reproduktion des Sprachsignals zu erreichen

Keine bitgenaue Wiedergabe wegen verlustbehafteter Kodierung


PIC
Abbildung 3.4.6: Sprachweg im GSM-System

CELP:

Kodeerregte lineare Prädiktion in GSM-Systemen mit dem RPE/LTP-LPC-Verfahren


PIC
Abbildung 3.4.7: CELP-Sprachkoder im GSM-System

Grund-Algorithmus:

1987 Kombination von drei Verfahren:

  1. LPC: Linear␣Predictive␣Coding Technik

    Parameter für ein Modell der Erzeugung menschlicher Sprache

    Entfernen des quasi-periodischen Signalanteil (stimmhafte Anteile: Vokale, Nasale)

  2. LTP: Long Term Prediction Prädiktionstechnik

    Langzeit-Prädiktions-Filter zur Entfernung längerdauernder statistischer Abhängigkeiten (Silben, Lautbildung)

  3. RPE: Regular Pulse Excitation

    Verlustbehaftete Kodierung durch das Weglassen subjektiv irrelevanter Sprachinformation des Restsignals

Erweiterung:

1988 und 1989 erfolgte eine Erweiterung:

  1. VAD: Die Sprechpausenerkennung (Voice Activity Detection)

    Einsparung bei 3545%, Max. 60%

  2. DTX: Discontinous Transmission

    Abschalten der Datenübertragung für nicht VAD

    Auf der Empfangsseite ein möglichst passendes Hintergrundgeräusch erzeugen (CN, Comfort Noise), damit keine digitale Stille existiert.

6Das Spektrum eines Gespräches reicht von 20 – 8000 Hz