Bei der Diskussion des Urnenmodells mit Zurücklegen hatten wir bereits eine Wahrscheinlichkeitsformel kennengelernt, die hier zur sog. hypergeometrischen Wahrscheinlichkeitsverteilung führt. Wir können sie eigentlich ganz gleich verstehen, wie die Binomialverteilung, jedoch mit dem Unterschied, dass sich die Wahrscheinlichkeit von Zug zu Zug ändert, weil die gezogene Kugel nicht mehr zurückgelegt wird.

Die hypergeometrische Verteilung entsteht aus der Wahrscheinlichkeit zu einem Urnenmodell, bei welchem wir $n$ Kugeln ziehen ohne Zurücklegen. Die Wahrscheinlichkeit, dass wir unter den gezogenen $n$ Kugeln genau $k$ Treffer haben, entspricht dann der hypergeometrischen Wahrscheinlichkeitsverteilung:

\[ P(X=k) \;\;=\;\; \frac{\begin{pmatrix} K \\ k \end{pmatrix} \cdot \begin{pmatrix} N-K \\ n-k \end{pmatrix}}{\begin{pmatrix} N \\ n \end{pmatrix}} \]

Dabei ist $N$ die Anzahl Kugeln in der Urne, wobei $K$ Kugeln darin einen Treffer repräsentieren und $(N-K)$ der Anzahl “Nieten” in der Urne entspricht.

Beachte, dass für $N >> n$ können wir den Effekt des Nicht-Zurücklegens vernachlässigen. Wenn wir beispielsweise eine Stichprobe von 100 Schrauben aus einer Produktion von einer Million Schrauben ziehen, dann ist die Wahrscheinlichkeit einen Treffer oder eine Niete zu ziehen praktisch unverändert, selbst dann, wenn wir schon sehr viele von der einen Sorte gezogen hätten. Es hat auch so noch eine riesige Menge von Schrauben, von denen wir ziehen können, d.h. die Wahrscheinlichkeit bleibt näherungsweise konstant, was uns erlaubt die Aufgabe mit der Binomialverteilung zu berechnen.

Tatsächlich gehen die hypergeometrische und die Binomialverteilung ineinander über, wenn wir in diesen Grenzbereich kommen. Die Unterschiede der berechneten Wahrscheinlichkeiten sind verschwindend klein.

Binomialverteilung als Näherung der hypergeometrischen Verteilung

Wenn die Grösse der Stichprobe $n$ viel kleiner ist als die Grundmenge $N$ ($n << N$), dann geht die hypergeometrische Wahrscheinlichkeitsverteilung in die Binomialverteilung über, so dass mit der einfacher zu berechnenden Binomialverteilung gearbeitet werden kann. Der Unterschied (und damit der Fehler) der berechneten Wahrscheinlichkeiten ist sehr klein.

Beispiel

Bei einem Hersteller von Schrauben wird für die Qualitätskontrolle viermal täglich eine Stichprobe von 20 Schrauben mit einem Griff aus der Produktion genommen. Als Erfahrungswert ist im Schnitt nur eine von 10’000 Schrauben defekt. In der letzten Stichprobe fand die verantwortliche Mitarbeiterin zwei defekte Schrauben. Was soll sie tun?


Wir erkennen, dass es sich um ein Urnenmodell handelt, mit $N=10’000$, $K=1$ und $n=20$. Die Wahrscheinlichkeit, dass wir genau 2 defekte Schrauben in der Stichprobe haben, wäre:

\[ P(X=2) \;\;=\;\; \frac{\begin{pmatrix} 1 \\ 2 \end{pmatrix} \cdot \begin{pmatrix} 10’000-1 \\ 20-2 \end{pmatrix}}{\begin{pmatrix} 10’000 \\ 20 \end{pmatrix}} \]

Jetzt haben wir aber ein Problem mit dem ersten Binomialkoeffzienten im Zähler. Die obere Zahl dürfte nicht kleiner sein als die untere Zahl. Wir können daran etwas ändern, indem wir die Gesamtmenge verdoppeln: $K=2$ für $N=20’000$. Jetzt kriegen wir:

\[ P(X=2) \;\;=\;\; \frac{\begin{pmatrix} 2 \\ 2 \end{pmatrix} \cdot \begin{pmatrix} 20’000-2 \\ 20-2 \end{pmatrix}}{\begin{pmatrix} 20’000 \\ 20 \end{pmatrix}} = \frac{1 \cdot \begin{pmatrix} 19’998 \\ 18 \end{pmatrix}}{\begin{pmatrix} 20’000 \\ 20 \end{pmatrix}} \]

Die beiden verbleibenden Binomialkoeffizienten sind sehr gross. Wir schreiben deshalb deren Definition als Bruch von Fakultäten auf und machen aus dem Doppelbruch gleich einen Einfachbruch:

\[ P(X=2) \;\;=\;\; \frac{19’998!}{18! \cdot \cancel{19’980!}} \cdot \frac{20! \cdot \cancel{19’980!}}{20’000!} = \frac{19’998! \cdot 20!}{20’000! \cdot 18!} \]

Das können wir ebenfalls vereinfachen, indem wir für die grössere Fakultät die oberen Faktoren ausklammern:

\[ 20’000! = 20’000 \cdot 19’999 \cdot 19’998! \]

\[ P(X=2) \;\;=\;\; \frac{19’998! \cdot 20!}{20’000! \cdot 18!} = \frac{\cancel{19’998!} \cdot (20 \cdot 19 \cdot \cancel{18!})}{(20’000 \cdot 19’999 \cdot \cancel{19’998!}) \cdot \cancel{18!}} = \frac{20 \cdot 19}{20’000 \cdot 19’999} = \underline{9.5 \cdot 10^{-7}} \]

Das ist eine sehr, sehr kleine Wahrscheinlichkeit! Bei 4 Stichproben pro Tag käme das einmal in 700 Jahren vor! Sehr viel wahrscheinlicher ist es, dass die Produktionsmaschine ein Problem hat und die Mitarbeiterin sollte dies sofort klären, bevor zu viel Ausschuss produziert wird.