6.2 Quelle

Quelle:

Eine diskrete gedächtnislose Quelle X erzeugt in jedem Zeittakt T ein Zeichen xi aus dem Alphabet X = {x1,x2,,xN} mit der Wahrscheinlichkeit P(xi) = pi.

Gedächtnislos heisst, das aktuelle Zeichen ist unabhängig von den bereits erzeugten.

Information:

Die Definition des Informationsgehalts eines Zeichens ist

          (   )
            1-
I(xi) = ld  pi  = −  ld pi
(6.2.1)

mit folgenden Eigenschaften:

  1. Der Informationsgehalt ist ein nicht negatives Maß
    I(xi) ≥ 0   wegen   0 ≤ pi ≤ 1
    (6.2.2)

  2. Für ein Zeichen mit pi = 12 ist der Informationsgehalt I(xi) = 1. Dies ist die Pseudoeinheit der Information. Sie wird als bit (binary indissoluble information) bezeichnet6
  3. Ein seltenes Symbol hat einen größeren Informationsgehalt als ein häufiges Symbol (der Informationsgehalt ist eine stetige Funktion der Wahrscheinlichkeit)
    I(x1) ≥ I(x2) ≥ 0  falls  p1 ≤ p2
    (6.2.3)

    • Sonderfall keine Information:7
      I(xi) = 0  falls  pi = 1
      (6.2.4)

    • Sonderfall unendliche Information:8
      I(xi) = ∞    falls  pi = 0
      (6.2.5)

  4. Für unabhängige Zeichenpaare (xi,xj) mit der Verbundwahrscheinlichkeit p(xi xj) = pi pj gilt
    I(xi ∧ xj) = I(xi) + I(xj)
    (6.2.6)

Entropie:

Die Entropie einer Quelle wird (in Anlehnung an die Thermodynamik) als mittlerer Informationsgehalt ihrer Zeichen definiert zu

                       ∑N
H (X ) = E {I(X )} = −    pi ld pi
                       i=1
(6.2.7)

mit der Einheit bit.

Die Entropie ist ein Maß für die Ungewissheit der Zeichen X der Quelle. Das Chaos hat die maximale Entropie!

Beispiel 6.2.1
(Quelle)

Eine Quelle verwendet das Alphabet

X =  {i,n,f,o,r,m, a,t,-}

Sie sendet damit folgende Nachricht

Z =  {i n-f-o-r-m a t-i-o n-}

Wie groß ist der Informationsgehalt der Zeichen:

  1. positionsunabhängig,

    d.h. es ist NICHT bekannt, dass jedes 2. Zeichen ein Leerzeichen ist und

  2. positionsabhängig,

    d.h. es ist bekannt, dass jedes 2. Zeichen ein Leerzeichen ist.

Lösung:

Die Lösung wird in der Vorlesung erarbeitet. Zahlenwerte sind:

  1. Positionsunabhängige Wahrscheinlichkeiten:
                   1-
p(zi = x9)  =  2
               1
p(zi ⁄= x9)  =  --
               2

    Informationsgehalt pro Zeichen:

    H1(X )  =   2,5bit-
  2. Positionsabhängige Wahrscheinlichkeiten:
                  p(z1 = x9)  =   0
p(z =  (x  ∨ x  ∨ ...x  ))  =   1
   1     1   2        8
              p(z2 = x9)  =   1

    Mit Umkodieren:

    H2 (X )  =   Hmax (X ) = 3bit-
Redundanz:

Die Differenz zwischen maximaler Entropie und der vorhandenen Entropie einer Quelle ist die Redundanz␣der␣Quelle

R  = Hmax (X ) − H (X )
(6.2.9)

Bei einer redundanten Quelle treten einige Zeichen mit größerer Wahrscheinlichkeit auf als andere.

Sonderfälle:

6Das Wort Bit (großgeschrieben) bezeichnet dagegen ein physikalisches Bit, z.B. eines Datenbusses mit 16 Bits. Ebenso werden Datenraten (bit pro Sekunde) auch kleingeschrieben, z.B. 10 Mbit/s.

7Das ist genau der Fall, den wir am Anfang besprochen haben: Ich bekomme eine Nachricht, die ich schon kenne

8Das kannman sich eigentlich nicht vorstellen, aber was wäre, wenn wir im Radio die Nachricht hören würden: Vor dem Brandenburger Tor ist gerade ein UFO gelandet

9Wie schwer das Gedächtnis einer Quelle zu finden ist, kann man am Beispiel des Roulettespiels sehen: Ist die Wahrscheinlichkeit für eine rote Zahl nach einer Folge langen Folge von schwarzen Zahlen größer, da ja die Quelle „weiß“, dass sie insgesammt mittelwertfrei sein muss? Die Quelle kann ja die aktuelle Verschiebung des Mittelwertes nur ausgleichen wenn sie mehr schwarze als rote Zahlen generiert!