Binomialverteilung

Ein Zufallsexperiment mit nur zwei Ergebnissen heißt Bernoulli Experiment. Wir nennen dabei das eine Ergebnis "Treffer" und das andere "Niete".
Die Trefferwahrscheinlichkeit bezeichnen wir mit $p$, womit die Nietenwahrscheinlichkeit den Wert $1-p$ hat.

Eine $n$-malige Durchführung eines Bernoulli Experiments nennt man Bernoulli Kette der Länge $n$. Die Wahrscheinlichkeitsverteilung für die Trefferanzahlen in einer Bernoulli Kette heißt Binomialverteilung bzw. $B_{n;p}$-Verteilung.
Die Warscheinlichkeit genau $k$ Treffer zu erzielen bezeichnen wir mit $B_{n;p}(k)$ und die Wahrscheinlichkeit höchstens $k$ Treffer zu erzielen mit $F_{n;p}(k)$.

Wahrscheinlichkeitsverteilung

Ist $X$ eine Zufallsvariable für die Anzahl der Treffer in einer Bernoulli Kette, dann gilt:
$P(X=k)=B_{n;p}(k)=\left(\begin{array}{r} n\\ k\end{array}\right)\cdot p^k\cdot (1-p)^{n-k}$
$P(X\le k)=F_{n;p}(k)=B_{n;p}(0)+B_{n;p}(1 )+...+B_{n;p}(k)$

Dabei gilt $\left(\begin{array}{r} n\\ k \end{array}\right)= \frac{n!}{k!\cdot (n-k)!}$ mit $m!=1\cdot 2\cdot 3\cdot...\cdot m$ und $0!=1$.

Für $B_{n;p}(k)$ und $F_{n;p}(k)$ gibt es Taschenrechnerfunktionen, wobei jeweils nur $n$, $p$ und $k$ eingegeben werden muss.

Erwartungswert, Varianz und Standardabweichung

Für eine $B_{n;p}$-verteilte Zufallsvariable $X$ gibt es einfache Formeln zur Berechnung von Erwartungswert, Varianz und Standardabweichung.

  • Der Erwartungswert entspricht der durchschnittlichen Trefferanzahl und wird auch mit $\mu$ bezeichnet wird. Falls ganzzahlig, entspricht dieser auch der Trefferzahl mit der größten Wahrscheinlichkeit, ansonsten ist diese Trefferanzahl die nächste ganze Zahl links oder rechts vom Erwartungswert. Er wird wie folgt berechnet:
    $E(X)=\mu=n\cdot p$
  • $V(X)=n\cdot p\cdot (1-p)$
  • $\sigma(X)=\sqrt{n\cdot p\cdot (1-p)}$

Wahrscheinlichkeiten für Trefferbereiche

Für eine Zufallsvariable $X$ mit $B_{n;p}$-Verteilung können die Wahrscheinlichkeiten, dass die Trefferanzahl in einem bestimmten Bereich liegt, wie folgt berechnet werden:

Bereich für TrefferanzahlWahrscheinlichkeit
genau $k$ Treffer$P(X=k)=B_{n;p}(k)$
höchstens $k$ Treffer$P(X\le k)=F_{n;p}(k)$
weniger als $k$ Treffer$P(X\lt k)=F_{n;p}(k-1)$
mindestens $k$ Treffer$P(X\ge k)=1-F_{n;p}(k-1)$
mehr als $k$ Treffer$P(X\gt k)=1-F_{n;p}(k)$
mindestens $k_1$ und höchstens $k_2$ Treffer$P(k_1\le X\le k_2)=F_{n;p}(k_2)-F_{n;p}(k_1 -1)$

Sigma Regeln

Unter einem Sigma Intervall einer binomialverteilten Zufallsvariable $X$ mit dem Erwartungswert $\mu$ und der Standardabweichung $\sigma$ versteht man den Trefferbereich $\mu-c\cdot \sigma\le X\le \mu + c\cdot\sigma$, wobei c angibt, um welches Vielfache der Standardabweichung die Trefferanzahl höchsten vom Erwartungswert abweichen soll.
Vorausgesetzt es gilt $\sigma > 3$, lassen sich die Wahrscheinlichkeiten, dass die Trefferanzahl in solchen Intervallen liegt näherungsweise berechnen. Für verschiedene Werte von c ergeben sich dabei z.B. die folgenden Sigma Regeln:

$P(\mu- 1\sigma\le X\le \mu + 1\sigma)\approx68,3\%$
$P(\mu-3 \sigma\le X\le \mu + 3\sigma)\approx 99,7\%$
$P(\mu-2 \sigma\le X\le \mu + 2\sigma)\approx 95,4\%$
$P(\mu-1,64 \sigma\le X\le \mu + 1,64\sigma)\approx 90,0\%$
$P(\mu-1,96 \sigma\le X\le \mu + 1,96\sigma)\approx 95,0\%$
$P(\mu-2,58 \sigma\le X\le \mu + 2,58\sigma)\approx 99,0\%$

Vertrauensintervalle

Um die Wahrscheinlichkeit für ein bestimmtes Merkmal in einer Grundgesamtheit zu bestimmen, kann man eine Stichprobe vom Umfang $n$ durchführen. Die Zufallsvariable $X$ für die Anzahl der Ergebnisse mit diesem Merkmal ist dann $B_{n;p}$- verteilt, wobei die Treferwahrscheinlichkeit $p$ unbekannt ist. Tritt bei der Stichprobe das Merkmal $k$ mal auf, dann ist seine relative Häufigkeit $h=\frac kn$ in der Stichprobe ein Schätzwert für $p$.
Aus der Stichprobe lässt sich weiter ein Schätzbereich bzw. Vertrauensintervall berechnen, in dem $p$ mit einer erwünschten Sicherheit, der sogenannten Vertrauenswahrscheinlichkeit liegen soll. Dazu bestimmt man zunächst mithilfe einer Tabelle zu einer erwünschten Vertrauenswahrscheinlichkeit eine Konstante $c$:

Vertrauenswahrscheinlichkeit90%95%99%99,9%
c1,641,962,583,29

Mit $c$ und $h=\frac kn$ kann nun das Vertrauensintervall bestimmt werden, in welchem die Trefferwahrscheinlichkeit $p$ mit der gewählten Vertrauenswahrscheinlichkeit liegt:

$\left[h-c\cdot\sqrt{\frac{h(1-h)}{n}};h+c\cdot\sqrt{\frac{h(1-h)}{n}}\right]$

Das Vertrauensintervall hat höchstens die Länge $l$, wenn für den Stichprobenumfang $n$ gilt:
$n\ge\frac{c^2}{l^2}$

Beispiele

  1. Ein Schütze trifft mit 90 $\%$ ins Schwarze und schießt 20 mal auf eine Zielscheibe. Wir berechnen die durchschnittliche Trefferanzahl, Varianz und Standardabweichung.
    Wegen $\mu=20\cdot 0,9=18$ trifft er im Durchschnitt 18 mal ins Schwarze, diese Trefferanzahl ist auch diejenige mit der größten Wahrscheinlichkeit.
    Für Varianz und Standardabweichung ergibt sich weiter:
    $V(X)=20\cdot 0,9\cdot 0,1=1,8$; $\sigma(X)=\sqrt{1,8}\approx 1,3416$
  2. Bei einer Wahl wird Partei A mit 10 $\%$, Partei B mit 20 $\%$, Partei C mit 30 $\%$ und Partei D mit 40 $\%$ gewählt. Es werden 20 Wähler befragt. Gegeben sind folgende Ereignisse:
    $E_1$: genau 5 Personen wählen Partei D
    $E_2$: höchstens 5 Personen wählen Partei A
    $E_3$: Weniger als 5 Personen wählen Partei A
    $E_4$: Mindestens 3 Personen wählen Partei B
    $E_5$: Mehr als 3 Personen wählen Partei B
    $E_6$: mindestens 7 aber höchstens 10 Personen wählen Partei C
    Für die Wahrscheinlichkeiten dieser Ereignisse ergibt sich
    $P(E_1)=B_{20;0,4}(5)\approx 0,0746$
    $P(E_2)=F_{20;0,1}(5)\approx 0,9887$
    $P(E_3)=F_{20;0,1}(4)\approx 0,9568$
    $P(E_4)=1-F_{20;0,2}(2)\approx 0,7939$
    $P(E_5)=1-F_{20;0,2}(3)\approx 0,5886$
    $P(E_6)=F_{20;0,3}(10)-F_{20;0,3}(6)\approx 0,3749$
  3. Bei einer Lotterie zieht man mit einer Wahrscheinlichkeit von $\frac{1}{5}$ einen Gewinn. Wieviel Lose muss man mindestens kaufen, um mit einer Wahrscheinlichkeit von mindestens 90 $\%$ mindestens 3 Gewinne zu ziehen?
    Für die Anzahl der $X$ Gewinne gilt:
    $P(X\ge 3)\ge 0,9$
    $\Leftrightarrow 1-F_{n;\frac{1}{5}}(2)\ge 0,9$
    $\Leftrightarrow F_{n;\frac{1}{5}}(2)\le 0,1$
    Durch Berechnen von $F_{n;\frac{1}{5}}(2)$ mit dem Taschenrechner für verschiedene Werte von $n$ ergibt sich, dass das Ergebnis ab $n=25$ kleiner als 0,1 ist. Man muss also mindestens 25 Lose kaufen.
  4. Bei einer Lotterie kauft man 20 Lose. Wie groß muss die Gewinnwahrscheinlichkeit eines Loses mindestens sein, damit man mit einer Wahrscheinlichkeit von mindestens 90 $\%$ mindestens 3 Gewinne hat? Für die Anzahl $X$ der Gewinne gilt:
    $P(X\ge 3)\ge 0,9$
    $\Leftrightarrow 1-F_{20;p}(2)\ge 0,9$
    $\Leftrightarrow F_{20;p}(2)\le 0,1$
    Durch Berechnen von $F_{20;p}(2)$ mit dem Taschenrechner für verschiedene Werte von $p$ ergibt sich, dass das Ergebnis ab etwa $p=0,25$ kleiner als 0,1 ist. Die Wahrscheinlichkeit eines Losgewinns muss also mindestens 25 $\%$ betragen.
  5. Ein Würfel wird 180 mal geworfen, $X$ ist die Zufallsvariable für die Anzahl der Sechsen. Was bedeutet hierbei die Sigma Regel $P(\mu-2,58 \sigma\le X\le \mu + 2,58\sigma)\approx 99,0\%$?
    Wir berechnen den Mittelwert und die Standardabweichung:
    $\mu=180\cdot\frac 16=30$
    $\sigma=\sqrt{180\cdot \frac 16\cdot \frac 56}=5$.
    Damit ergibt die Sigma Regel $P(17,1\le X \le 42,9)\approx 99,0\%$.
    Das bedeutet, dass man mit einer Wahrscheinlichkeit von etwa $ 99,0\% $ mindestens 18 und höchstens 42 Sechsen würfelt.
  6. Eine Stichprobe hat ergeben, dass 80 von 1000 Deutschen grüne Augen haben. Wir ermitteln einen Schätzwert für die Wahrscheinlichkeit $p$, dass ein Deutscher grünäugig ist, und ein Vertrauensintervall für $p$ zum Konfidenzniveau $95\%$.
    Die relative Häufigkeit $h=\frac{80}{1000}=8\%$ ist ein Schätzwert für $p$.
    Aus der Vertrauenswahrscheinlichkeit von $95\%$ folgt $c=1,96$ und damit das Vertrauensintervall
    $\left[0,08-1,96\cdot\sqrt{\frac{0,08\cdot0,02}{1000}};0,08-1,96\cdot\sqrt{\frac{0,08\cdot0,02}{1000}}\right]$ bzw. $[0,0775;0,0825]$
    Das bedeutet, dass die Wahrscheinlichkeit für grüne Augen mit einer Sicherheit von $95\%$ zwischen $7,75\%$ und $8,25\%$ liegt.
  7. Man bestimme einen Stichhprobenumfang, ab dem man sicher sein kann, dass bei einer Vertrauenswahrscheinlichkeit von $90\%$ das Vertrauensintervall höchstens eine Länge von 0,1 hat?
    Zur Vertrauenswahrscheinlichkeit gehört $c=1,64$. Aus $n\ge\frac{c^2}{l^2}=268,96$ folgt dann, dass für einen Stichprobenumfang von $n\ge269$ die Länge des Vertrauensintervalls höchstens 0,1 ist.