Sprachkoder

3.4 Sprachkoder

Koder:

Sprach-Koder werden durch subjektive Wahrnehmung der Sprachqualität (5 = excellent bis 1 = bad) nach dem Mean Opinion Score (MOS, ITU P.800) bewertet (siehe Abb. 3.4.1) .

Coder	f / kHz	Technik	MOS	Bandbreite


G.711a:	0,3 – 3,4	ISDN, Europa	4,1	64 kbps
G.711u:	0,3 – 3,4	ISDN, USA	4,1	64 kbps
G.722:	0,05 – 7	ISDN, VoIP	4,5	48 – 64 kbps
G.723:	0,3 – 3,4	VoIP	4,0	5,6 – 6,3 kbps
G.726:	0,3 – 3,4	DECT	3,85 – 4,2	16 – 40 kbps
GSM:	0,3 – 3,4	Mobilfunk	3,5	13 kbps

Abbildung 3.4.1: MOS der verschiedenen Sprach-Kodierer

3.4.1 Koder G.711

G.711:

G.711 ist der älteste Sprachkoder — er wurde 1965 von der ITU zugelassen.

→ PCM: Pulse Code Modulation

Abbildung 3.4.2: Puls-Code-Moduliertes PCM-Signal

Benötigt eine geringe Rechenleistung
Benötigt keine Umkodierung der Sprachdaten
Angepasst an die Charakteristik des menschlichen Ohres

Nichtlinear:

Um den relativen Quantisierungfehler bei kleinen Amplituden zu verringern wird die nichtlineare 13-Segment A-Kennlinie G.711a (siehe Abb. 3.4.3) verwendet, bei der kleine Signalamplituden feiner quantisiert werden als größere.

→ USA: 15-Segment μ-Kennlinie nach CCCIT G.711u

x	y

±1	±128
±1∕2	±112
±1∕4	±96
±1∕8	±80
±1∕16	±64
±1∕32	±48
±1∕64	±32
μ-Kennlinie:
±1∕128	±16

Abbildung 3.4.3: 13-Segment A-Kennlinie, bzw 15-Segment μ-Kennlinie

Kodierung:

Für die binäre Kodierung der Amplidenwerte verwendet man von den 8 Bit

1 Bit für das Vorzeichen
3 Bits für 7 Segmente pro Vorzeichen, wobei das kleinste positive und größte negative dieselbe Steigung aufweisen
→ Daher 13-Segment-A-Kennlinie und nicht 14-Segment-Kennlinie
→ mit 3 Bits kann man maximal 8 Segmente pro Vorzeichen kodieren, damit lässt sich also die 15-Segment-μ-Kennlinie analog kodieren, wobei für Übergänge von der A- zur μ-Kennlinie eine Umkodierung notwendig ist
4 Bits für jeweils 16 lineare Stufen innerhalb eines Segmentes
→ Die Quantisierungsstufen verdoppeln sich pro Segmentstufe zu größer werdenden (positiven) x-Werten

3.4.2 Koder G.722

G.722:

Beim ISDN wurde Breitbandsprachdienst „7 kHz audio-coding within 64 kbit/s“ mit dem Coder G.722 als High-Dynamic (HD) Telefonie eingeführt.

→ Es ist eine Kodierung nach der Adaptive Delta Pulse Code Modulation (ADPCM, siehe G.726).

Die Sprachdaten werden mit

16 kHz Abtastrate
im Frequenzbereich von 50 – 7000 Hz⁶ und mit
14 Bit Quantisiert und auf eine
Datenübertragungsrate auf 64 kbit/s (Mode 1), 56 kbit/s (Mode 2) oder 48 kbit/s (Mode 3) reduziert.

→ Eine neue Funktion ist die Sprechpausenerkennung, bei denen Zeitabschnitten von Stille nicht übertragen werden.

3.4.3 Koder G.723

G.723:

Mit einem Prädiktionsverfahren (Algebraic Code Excited Linear Prediction, A-CELP) erreicht dieser Koder eine Bitrate von 5,6 oder 6,3 kBit/s bei einer etwas geringeren Sprachqualität als G.711.

→ Kompresion bei G.723 im Vergleich zu G.711 auf 10%

Abbildung 3.4.4: Vorhersage (Schätzung) des nächsten Signalwertes

→ Analoge Audiobandbreite von 3,1 kHz mit 8 Bit

→ Für die Vorhersage des nächsten Sprachsignals ist Rechenleistung notwendig! Nur das Fehlersignal wird übertragen.

3.4.4 Koder G.726

G.726:

Der Koder nimmt die PCM-kodierten Sprqachdaten (nach G.711) und kodiert anstelle der tatsächlichen Signalwerte nur die Differenz benachbarter Signalwerte

→ ADPCM: Adaptive Delta Pulse Code Modulation

Abbildung 3.4.5: Adaptive Delta Puls Code Moduliertes Signal

Differenzwerte werden mit 2, 3, 4 oder 5 Bits kodiert mit Datenraten von 16, 24, 32 oder 40 kbps

3.4.5 Koder GSM

GSM:

Ziel der Sprachkodierung ist auf der Empfangsseite eine subjektiv bestmögliche Reproduktion des Sprachsignals zu erreichen

→ Keine bitgenaue Wiedergabe wegen verlustbehafteter Kodierung

Abbildung 3.4.6: Sprachweg im GSM-System

CELP:

Kodeerregte lineare Prädiktion in GSM-Systemen mit dem RPE/LTP-LPC-Verfahren

Extraktion des quasi-periodischen Sprachanteil, für die Formung stimmhafter Anteile (Vokale, Nasale)
Übertragen des Restsignals

Abbildung 3.4.7: CELP-Sprachkoder im GSM-System

Grund-Algorithmus:

1987 Kombination von drei Verfahren:

LPC: Linear␣Predictive␣Coding Technik
→ Parameter für ein Modell der Erzeugung menschlicher Sprache
→ Entfernen des quasi-periodischen Signalanteil (stimmhafte Anteile: Vokale, Nasale)
LTP: Long Term Prediction Prädiktionstechnik
→ Langzeit-Prädiktions-Filter zur Entfernung längerdauernder statistischer Abhängigkeiten (Silben, Lautbildung)
RPE: Regular Pulse Excitation
→ Verlustbehaftete Kodierung durch das Weglassen subjektiv irrelevanter Sprachinformation des Restsignals

Erweiterung:

1988 und 1989 erfolgte eine Erweiterung:

VAD: Die Sprechpausenerkennung (Voice Activity Detection)
→ Einsparung bei 35…45%, Max. 60%
DTX: Discontinous Transmission
→Abschalten der Datenübertragung für nicht VAD
→ Auf der Empfangsseite ein möglichst passendes Hintergrundgeräusch erzeugen (CN, Comfort Noise), damit keine digitale Stille existiert.

⁶Das Spektrum eines Gespräches reicht von 20 – 8000 Hz

[next] [prev] [prev-tail] [front] [up]