Hier kommen wir wirklich in der Welt der Statistik an. Bisher haben wir mit gegebenen Verteilungen gearbeitet oder haben diese Verteilungen aufgrund einer gegebenen Wahrscheinlichkeit bestimmt. Dann haben wir die Wahrscheinlichkeitsverteilung mit ihrem Erwartungswert oder ihrer Standardabweichung beschrieben. Deshalb nennt sich dieser Teil der Statistik auch beschreibende Statistik.

Nun kehren wir die Sache um. Wir haben Daten aus Messungen, Erhebungen – meist nur Teildaten aus Stichproben. Gesucht ist jetzt die Wahrscheinlichkeit und ihre Verteilung. Wie gut sind unsere Vermutungen aufgrund der beschränkten Stichprobe? Sie sie gültig für das Gesamte? Sind gemessene oder erhobene Abweichungen einfach zufällige Schwankungen oder deuten sie an, dass unsere Vermutung gar nicht korrekt oder nicht vollständig ist? Ist die Stichprobe gross genug?

Mit solchen Fragen befasst sich die analytische oder beurteilende Statistik. Sie bringt uns sehr starke Werkzeuge, um fundierte Aussagen zu machen!

Vorhersageintervall

Wir schauen uns ein Beispiel an: Wie ist die Wahrscheinlichkeitsverteilung für den Wurf von zwei Münzen, wenn wir zweimal “Kopf” haben wollen? Die Münzen sollen 50 mal geworfen werden.

Wir erkennen das Bernoulli-Experiment mit der Wahrscheinlichkeit $p=0.25$, sofern die Münzen fair sind. Die Länge der Bernoulli-Kette ist $n=50$. Damit haben wir die Wahrscheinlichkeit gemäss Formel von Bernoulli:

\[ P(X=k) \;\;=\;\; \begin{pmatrix} n \\ k \end{pmatrix} \cdot p^k \cdot (1-p)^{(n-k)} \]

Diese Wahrscheinlichkeit gibt uns eine Binomialverteilung mit folgendem Erwartungswert und Standardabweichung:

\[ \mu = np = 12.5, \quad \quad \sigma = \sqrt{np(1-p)} = \sqrt{\frac{150}{16}} \approx 3.06 \]

Es erstaunt uns nicht, dass bei einem Bernoulli-Experiment mit $p=0.25$ pro Wurf und 50 Würfen, wir etwa $\frac{50}{4}$ Würfe mit dem Treffer “Kopf-Kopf” erwarten dürfen. Die grössten Wahrscheinlichkeiten tummeln sich um diesen Erwartungswert herum. Wir können z.B. vom Erwartungswert aus nach links und rechts gehen und alle “Stäbe” des Histogramms dazu nehmen, bis wir 90% der ganzen Wahrscheinlichkeit haben.

Das gibt uns das Vorhersageintervall um den Erwartungswert herum, in welchem 90% aller Ergebnisse landen werden. Wenn wir diese 50-Wurf-Experimente zig-mal wiederholen, werden 90% der Anzahlen “Kopf-Kopf” in diesem Intervall liegen. In unserem Fall ist das Intervall gegeben durch die linke (untere) Grenze $k_L = 8$ und die rechte (obere) Grenze $k_R = 17$. Für das Intervall können wir auch die übliche Schreibweise mit eckigen Klammern verwenden: $\;[8,17]$

Während das mittlere Gebiet um den Erwartungswert uns die mit grosser Wahrscheinlichkeit zu erwartenden $k$-Werte angibt (grün), stehen die linken und rechten Enden der Glockenform für die unwahrscheinlichen Extreme (rot). Diese Extreme sind unerwartet tiefe $k$-Werte oder unerwartet hohe $k$-Werte. Es ist z.B. möglich, dass in den 50 Würfen, die Kombination “Kopf-Kopf” nur gerade einmal vorkommt und 49 mal etwas anderes. Das ist aber sehr ungewöhnlich und hat eine entsprechend kleine Wahrscheinlichkeit. Die beiden Gebiete der Extreme bilden den sog. Verwerfungsbereich.

Das Vorhersageintervall wird die eine linke Grenze $k_L$ und eine rechte Grenze $k_R$ definiert:

\[ \big[ k_L, k_R \big] \]

Diese Grenzen sind so zu wählen, dass das Gebiet in Summe die Wahrscheinlichkeit von 90%, 95% oder 99% ausmachen:

\[ P(k_L \leq k \leq k_R) \;=\; 90\% \;=\; \sum_{k=k_L}^{k_R} P(X=k) \]

Meistens ist die Glockenform annähernd spiegelsymmetrisch, so dass der Erwartungswert in der Mitte dieses Intervalls zu liegen kommt. Je grösser die Wahrscheinlichkeit des Vorhersageintervalls, desto breiter ist es.

Das Komplement zum Vorhersageintervall ist der Verwerfungsbereich. Er macht in Summe die restlichen 10%, 5% oder 1% der Fälle aus, die am linken oder rechten Rand der Verteilung liegen.

Die Berechnung der Grenzen des Vorhersageintervalls können schnell aufwendig werden. Am einfachsten ist die Berechnung aller Wahrscheinlichkeiten in einem Spreadsheet (z.B. mit Excel). Sobald die Höhen der Säulen berechnet sind, kann die Summe einfach gebildet werden.

Es gibt aber eine schnelle Näherung, die die Berechnung dieser Grenzen erlaubt. Es ist eine Näherung, d.h. die Resultate sind nicht exakt, aber meistens ausreichend genau. Wer es ganz genau haben muss, kann diese nur aus einer Tabelle erhalten, die auf dem Computer berechnet worden ist. 

Näherungsformel für die linke und rechte Grenze des Vorhersageintervalls bei Binomialverteilungen:

\[ k_L \;\;\approx\;\; \mu \;-\; u \cdot \sigma \quad \quad \quad k_R \;\;\approx\;\; \mu \;+\; u \cdot \sigma \]

Dabei ist $n$ die Länge der Bernoulli-Kette und $p$ die Wahrscheinlichkeit für einen Treffer im Bernoulli-Experiment. Weil die Grenze eine natürliche Zahl sein muss, wird der berechnete Wert am Schluss geeignet gerundet.

Diese Näherung darf nur verwendet werden, wenn die Standardabweichung grösser als 3 ist:

\[ \sigma > 3 \]

Der Parameter $u$ wird gesetzt, je nach gewünschtem Sicherheitsniveau für das Vorhersageintervall:

Sicherheit80%90%95%98%99%
Parameter $u$1.281.641.962.332.58

Quelle: DMK, “Stochastik, Theorie und Aufgaben für die Sekundarstufe II”, 1. Auflage, 2018, Orell Füssli Verlag, S. 128

Beispiel

Bestätige des 90%-Vorhersageintervall für den 50-fachen Wurf von zwei Münzen und dem Treffer “Kopf-Kopf” und berechne das 95%-Vorhersageintervall mit Hilfe der Näherungsformel.

Zuerst vergewissern wir uns, dass die Standardabweichung der Anforderung der Näherung genügt:

\[ \sigma = \sqrt{np \cdot (1-p)} = \sqrt{50 \cdot \frac{1}{4} \cdot \frac{3}{4}} \approx 3.06186 \]

Die Bedingung $\sigma > 3$ ist erfüllt, aber wir müssen in so einem knappen Fall mit der Näherung nachsichtig sein, d.h. es könnte sein, dass sie bereits nicht mehr so genau stimmt. Für die Berechnung der beiden Grenzen brauchen wir noch den Erwartungswert:

\[ \mu = 50 \cdot \frac{1}{4} = 12.5 \]

Mit $\mu$ und $\sigma$ haben wir alles für die Näherungsformel:

\[ k_L = 12.5 – 1.64 \cdot 3.06186 \approx 7.48 \]

\[ k_R = 12.5 + 1.64 \cdot 3.06186 \approx 17.52 \]

Wie sollen wir jetzt runden? Ein Vergleich mit den exakten Tabellenwerten gibt uns folgende Werte:

\[ \big[ 7, 17 \big] \quad \rightarrow \quad P(7 \leq x \leq 17) \approx 92.5\% \]

\[ \big[ 7, 18 \big] \quad \rightarrow \quad P(7 \leq x \leq 18) \approx 95.2\% \]

\[ \big[ 8, 17 \big] \quad \rightarrow \quad P(8 \leq x \leq 18) \approx 89.96\% \]

\[ \big[ 8, 18 \big] \quad \rightarrow \quad P(8 \leq x \leq 18) \approx 92.6\% \]

Wenn wir das Intervall am breitesten wählen, d.h. links abrunden und rechts aufrunden, erhalten wir natürlich die grösste Wahrscheinlichkeit. Für ein 90%-Vohersageintervall sind 95.2% schon etwas zu viel. Wenn wir das Gegenteil tun, d.h. links aufrunden und rechts abrunden, dann erhalten wir das schmalste Intervall und wir sind zwar am nächsten bei den 90% dran, aber dürfen nicht mehr behaupten, dass 90% aller Ergebnisse in diesem Intervall liegen!

Für das 95%-Vorhersageintervall gehen wir gleich vor, wobei wir $\mu$ und $\sigma$ wiederverwenden können:

\[ k_L = 12.5 – 1.96 \cdot 3.06186 \approx 6.50 \]

\[ k_R = 12.5 + 1.96 \cdot 3.06186 \approx 18.50 \]

Eigentlich wissen wir bereits, dass das Intervall $\big[ 7, 18 \big]$ ein 95%-Intervall ist. Unsere neue Berechnung zeigt aber, dass wir dieses Resultat mit der risikoreichsten Rundung erhalten. Wenn wir auf der sichersten Seite sein wollen, dann runden wir links ab und rechts auf und erhalten das Vorhersageintervall $\big[ 6, 19 \big]$, dessen Wahrscheinlichkeitssumme 97.9% beträgt.

Binomialtest

Jetzt kommen wir zum Auftrag der analytischen Statistik, nämlich zu einer unbekannten Wahrscheinlichkeit $p$ eine Hypothese aufzustellen und diese dann zu testen. 

Wir werden das an einem einfachen und deshalb künstlich wirkenden Beispiel anschauen, nämlich an der Analyse eines einfachen Spielwürfels. Der Vorteil liegt darin, dass wir die Wahrheit kennen und leicht überblicken und deshalb besser verstehen, was wir eigentlich tun. Sobald wir das Prinzip verstanden haben, können wir diese Technik auch auf unbekannte Phänomene anwenden.

Beispiel

Zwei Ausserirdische vom Planeten Statistika landen auf der Erde und fragen sich, mit welcher Wahrscheinlichkeit mit einem (fairen) Spielwürfel eine 6 gewürfelt wird. Sie wissen es beide nicht, beherrschen aber die Statistik…

Der Erste vermutet $p_0$ = 20%. Der Zweite ist nicht einverstanden und sagt $p_0$ = 20% stimmt sicher nicht!

Damit wir mit der Näherungsformel für das Vertrauensintervall rechnen können, wählen wir eine genug grosse Kettenlänge $n=100$. So haben wir für $p$ eine untere Grenze von $p=0.1$, denn…

\[ \sigma = \sqrt{100 \cdot \frac{1}{10} \cdot \frac{9}{10}} = \sqrt{\frac{\cancel{100} \cdot 9}{\cancel{100}}} = 3 \]

Die Länge der Bernoulli-Kette wird meistens auch Grösse der Stichprobe genannt. Es ist klar, dass wir nicht nur dreimal würfeln können und dann bereits eine Aussage machen dürfen. Wir wählen $n=100$ und haben damit den Weg frei für einen grossen Bereich für $p$: Alle Werte $0.1 < p < 0.9$ erfüllen die Anforderung $\sigma>3$ und wir dürfen die Näherungsformel verwenden.

Für die unbekannte Wahrscheinlichkeit stellen wir eine sog. Nullhypothese $H_0$ auf:

\[ H_0: \; p_0 = 0.2 \]

Wie gesagt: Wir stellen uns dumm und kennen die Wahrscheinlichkeit nicht, mit welcher wir eine 6 würfeln werden. Unsere Vermutung: $\frac{1}{5}$ der Fälle.

In einem nächsten Schritt wählen wir das sog. Signifikanzniveau $\alpha = 5\%$. Dazu passend brauchen wir das 95%-Vorhersageintervall, das wir mit der Näherungsformel berechnen:

\[ \mu = 100 \cdot 0.2 = 20, \quad \sigma = \sqrt{100 \cdot 0.2 \cdot 0.8} = 4 \]

\[ k_L \approx 12.16, \quad k_R \approx 27.84 \quad \rightarrow \quad \big[ 12, 28 \big] \]

Jetzt können die beiden ihre Experimente mit je 100 Würfen 10 mal durchführen. Vermutlich erhalten sie 9 mal ein Ergebnis im Vorhersageintervall und 1 mal ausserhalb. Warum? Das 95%-Vorhersageintervall für die richtige Wahrscheinlichkeit $p=\frac{1}{6}$ ist: $\big[10,24\big]$, was wir mit der Näherungsformel schnell berechnen können. Die beiden Intervalle sind zu 85% deckungsgleich!

Die Hypothese $H_0$ des Ersten scheint zu stimmen, wenn 90% der Fälle im 95%-Intervall zu liegen kommen. Es gibt allerdings dieses eine Experiment (10% der Fälle), bei welchem wir in den Verwerfungsbereich fallen. 10% sind aber für unser Würfelexperiment gerade noch akzeptabel tief und der Zweite gesteht seine Niederlage ein. Die beiden bestätigen die Hypothese $H_0$:

“Zu 90% stimmt die Hypothese, dass ein Würfel mit 20% Wahrscheinlichkeit eine 6 zeigt”.

Der Erste hatte nicht schlecht getippt mit $p_0 = 20\%$ statt $p = \frac{1}{6} = 16.7\%$. Leider findet er seinen Irrtum nicht so einfach heraus (er macht einen sog. $\beta$-Fehler), aber ganz daneben liegt er ja nicht. Der Zweite hat im Prinzip die sog. Gegenhypothese $H_1$ aufgestellt, die sagt, dass $p_0=0.2$ nicht stimmt. Er hatte nur zu 10% recht, womit er selbst seine Gegenhypothese verwerfen musste.

Ablauf eines Binomialtests

  • Nullhypothese $H_0$ aufstellen, mit Wahrscheinlichkeit $p_0$
  • Signifikanzniveau $\alpha$ festlegen (z.B. 5%)
  • Grösse der Stichprobe $n$ festlegen
  • Vorhersageintervall für $(1-\alpha)$ und Verwerfungsbereich für $\alpha$ mit der Näherungsformel berechnen, unter Voraussetzung, dass $\sigma > 3$
  • Resultate aus Experiment/Erhebung testen. Falls die Resultate deutlich im Vorhersageintervall liegen, kann die Hypothese bestätigt werden. Falls sie hingegen zu oft im Verwerfungsbereich liegen, wird die Hypothese verworfen.

Alpha-Fehler

Angenommen, unsere beiden Ausserirdischen hätten nur ein Würfelexperiment durchgeführt und der Zufall hätte es so gewollt, dass sie nur 8-mal eine 6 gezählt hätten. Damit wären das Ergebnis in den Verwerfungsbereich gefallen und sie hätten daraufhin die Nullhypothese $H_0$ verworfen. Zugegeben, der Fall ist offensichtlich, aber das ist durchaus Absicht, um ihren Fehler zu verdeutlichen. Sie hätten in diesem Fall einen $\alpha$-Fehler erlitten.

Mit dem Fehler meine ich nicht die Tatsache, dass sie zu wenig getestet haben. Das ist ein anderer Fehler: Eine Hypothese kann nicht aufgrund einer einzigen Messung (eine Serie von 100 Würfen gilt als nur eine Messung) angenommen oder verworfen werden. Der $\alpha$-Fehler ist entstanden, weil sie unter dem falschen Eindruck waren, dass die Hypothese nicht stimmt. In der Praxis kann der $\alpha$-Fehler durchaus passieren, wenn der Verwerfungsbereich mit einer gewissen Wahrscheinlichkeit getroffen wird. Die Hypothese steht dann auf wackligen Beinen und kann möglicherweise verworfen werden.

Der Alpha-Fehler entsteht, wenn die Hypothese eigentlich stimmt, aber das Experiment den Verwerfungsbereich (zu oft) trifft, was zur fälschlichen Verwerfung der eigentlich richtigen Hypothese führt.

Die folgende Grafik soll diesen Umstand verdeutlichen. Eine unbekannte Wahrscheinlichkeitsverteilung (blau) soll untersucht werden. Sie kann mit vielen wiederholten Experimenten “abgetastet” werden, wobei sie einfach nach jedem Experiment (z.B. nach 100 Würfen des Würfels) ein neues Ergebnis liefert (Anzahl 6er). Diese Ergebnisse “regnen” wie zufällige Regentropfen herunter. Ganz zufällig sind sie nicht, denn mit der Zeit bestätigen sie die effektive Wahrscheinlichkeitsverteilung (blau).

Unten ist die Hypothese mit ihrer Wahrscheinlichkeitsverteilung gezeichnet. Wir sehen sofort, dass die Hypothese eigentlich stimmt. Die Ergebnisse treffen jetzt unten ein. Es kann aber durchaus sein, wenn auch etwas unwahrscheinlich, dass der Verwerfungsbereich in rot (zu oft) getroffen wird. Falls dann das Experiment vorzeitig abgebrochen wird und die vorhandenen Ergebnisse zu einem Verwerfen der Hypothese führen, haben wir den $\alpha$-Fehler.

Beta-Fehler

Der $\beta$-Fehler ist ähnlich zum $\alpha$-Fehler, aber eigentlich der umgekehrt Fall. Unsere beiden Ausserirdischen haben eine Hypothese aufgestellt, die eigentlich falsch ist. Weil aber 90% ihrer Experimente sie bestätigt haben, gingen sie davon aus, dass die Hypothese stimmt. Eigentlich hätten Sie mehr auf die eine Abweichung acht geben sollen. Hätten sie ihr Experiment mehr als 10 mal wiederholt, hätten sie gemerkt, dass sie bei rund 90% Zustimmung geblieben wären, obwohl sie mit einem 95%-Vorhersageintervall arbeiten. Das ist ein Hinweise auf eine leichte Abweichung.

Hätten Sie wirklich richtig getippt, dann wäre mit einer sehr grossen Anzahl an Experimenten die echte Wahrscheinlichkeitsverteilung herausgekommen mit 95% der Ergebnisse in ihrem 95%-Vorhersageintervall!

Der Beta-Fehler entsteht, wenn die Hypothese nicht stimmt, aber das Experiment das Vorhersageintervall (zu oft) trifft, was zur fälschlichen Annahme der falschen Hypothese führt.

In der folgenden Grafik sehen wir zwei Fälle mit $\beta$-Fehler. Dabei ist $\beta$ die summierte Wahrscheinlichkeit der Ergebnisse in der vermuteten Wahrscheinlichkeitsverteilung, jedoch nur für Ergebnisse aus dem Vorhersageintervall der echten Verteilung.

Links treffen die Ergebnisse aus dem 90%-Vorhersageintervall der Realität auf die Verteilung der vermuteten Wahrscheinlichkeit. Der oder die Statistiker(in) wird feststellen, dass die Ergebnisse mehrheitlich den linken Rand treffen und vor allem im Verwerfungsbereich landen. Nur ganz wenige Ergebnisse sind noch knapp im vermuteten Vorhersageintervall. Die Summe der Wahrscheinlichkeiten, die rot eingezeichnet sind, betragen vielleicht ca. 10%. Niemand würde aufgrund von $\beta \approx$ 10% die Hypothese fälschlicherweise annehmen und damit den $\beta$-Fehler machen!

Rechts ist die Sache aber komplizierter. Durch die stärkere Überlappung haben wir einen grösseren roten Bereich und rund ein Drittel der Ergebnisse, vielleicht sogar $\beta \approx$ 40%, fallen in den roten Bereich. Ein grosser Teil dieses Bereichs ist im Vorhersageintervall. Der oder die Statistiker(in) wird eine Bestätigung einer Hypothese vermuten und die par wenigen Treffer im Verwerfungsbereich ignorieren. Hier besteht die Gefahr, dass bei einem $\beta \approx 40\%$ die falsche Hypothese angenommen wird, was dem $\beta$-Fehler entspricht!

Wir erkennen jetzt, dass die beiden Ausserirdischen eigentlich den $\beta$-Fehler gemacht haben. Wir müssen aber zugeben, dass ihre Hypothese schon so gut, dass wir sie durchaus als valide Näherung akzeptieren müssen, d.h. eine fast richtige Hypothese, die durch das Experiment praktisch bestätigt worden ist.

Was sollen wir aber tun, wenn wir eine gewisse Überlappung haben und $\beta$ zu gross ist? Wir können die Überlappung reduzieren durch die Vergrösserung der Stichprobe $n$. Mit einer 9-mal grösseren Stichprobe, wird der Erwartungswert ebenfalls 9-mal grösser, da $\mu = np$. Das gilt aber für beide Verteilungen, d.h. der Abstand der beiden Verteilungen wird 9-fach grösser.

Problematisch ist, dass die Breite der Verteilungen auch grösser wird. Da die Standardabweichung $\sigma$ aber mit der Wurzel der Länge $n$ wächst, d.h. in unserem Fall mit dem Faktor $\sqrt{9} = 3$, wird die Breite beider Verteilungen 3-mal grösser, jedoch bei 9-fachem Abstand. Die beiden Verteilungen überlappen sich deshalb weniger stark und das $\beta$ sinkt.

Vermeidung des Beta-Fehlers

Bei einem zu grossen $\beta$ besteht die Gefahr des Beta-Fehlers. $\beta$ kann verringert werden, z.B. auf ein weniger kritisches Niveau, z.B. 10% oder weniger, indem die Stichprobengrösse $n$ vergrössert wird.

Aufgabensammlung

  • Testen von Hypothesen (5064) – Aufg. 1

    2 Teilaufgaben (pdf/Video-Lösung):
    Zweiseitiger Test einer Hypothese
    Berechnung von zwei Signifikanzniveaus

  • Testen von Hypothesen (5064) – Aufg. 2

    5 Teilaufgaben (pdf/Video-Lösung):
    Zweiseitiger Test
    Stichprobengrösse

  • Testen von Hypothesen (5064) – Aufg. 3

    6 Teilaufgaben (pdf/Video-Lösung):
    Zweiseitiger Test
    Alpha- und Beta-Fehler

  • Testen von Hypothesen (5064) – Aufg. 4

    3 Teilaufgaben (pdf/Video-Lösung):
    Einseitiger Test
    Beta-Fehler

  • Testen von Hypothesen (5064) – Aufg. 5

    5 Teilaufgaben (pdf/Video-Lösung):
    Einseitiger Test
    Beta-Fehler
    verschiedene Signifikanzniveaus