Inhalt
Videos
Hier kommen wir wirklich in der Welt der Statistik an. Bisher haben wir mit gegebenen Verteilungen gearbeitet oder haben diese Verteilungen aufgrund einer gegebenen Wahrscheinlichkeit bestimmt. Dann haben wir die Wahrscheinlichkeitsverteilung mit ihrem Erwartungswert oder ihrer Standardabweichung beschrieben. Deshalb nennt sich dieser Teil der Statistik auch beschreibende Statistik.
Nun kehren wir die Sache um. Wir haben Daten aus Messungen, Erhebungen – meist nur Teildaten aus Stichproben. Gesucht ist jetzt die Wahrscheinlichkeit und ihre Verteilung. Wie gut sind unsere Vermutungen aufgrund der beschränkten Stichprobe? Sie sie gültig für das Gesamte? Sind gemessene oder erhobene Abweichungen einfach zufällige Schwankungen oder deuten sie an, dass unsere Vermutung gar nicht korrekt oder nicht vollständig ist? Ist die Stichprobe gross genug?
Mit solchen Fragen befasst sich die analytische oder beurteilende Statistik. Sie bringt uns sehr starke Werkzeuge, um fundierte Aussagen zu machen!
Vorhersageintervall
Wir schauen uns ein Beispiel an: Wie ist die Wahrscheinlichkeitsverteilung für den Wurf von zwei Münzen, wenn wir zweimal “Kopf” haben wollen? Die Münzen sollen 50 mal geworfen werden.
Wir erkennen das Bernoulli-Experiment mit der Wahrscheinlichkeit \(p=0.25\), sofern die Münzen fair sind. Die Länge der Bernoulli-Kette ist \(n=50\). Damit haben wir die Wahrscheinlichkeit gemäss Formel von Bernoulli:
\[ P(X=k) \;\;=\;\; \begin{pmatrix} n \\ k \end{pmatrix} \cdot p^k \cdot (1-p)^{(n-k)} \]
Diese Wahrscheinlichkeit gibt uns eine Binomialverteilung mit folgendem Erwartungswert und Standardabweichung:
\[ \mu = np = 12.5, \quad \quad \sigma = \sqrt{np(1-p)} = \sqrt{\frac{150}{16}} \approx 3.06 \]
Es erstaunt uns nicht, dass bei einem Bernoulli-Experiment mit \(p=0.25\) pro Wurf und 50 Würfen, wir etwa \(\frac{50}{4}\) Würfe mit dem Treffer “Kopf-Kopf” erwarten dürfen. Die grössten Wahrscheinlichkeiten tummeln sich um diesen Erwartungswert herum. Wir können z.B. vom Erwartungswert aus nach links und rechts gehen und alle “Stäbe” des Histogramms dazu nehmen, bis wir 90% der ganzen Wahrscheinlichkeit haben.
Das gibt uns das Vorhersageintervall um den Erwartungswert herum, in welchem 90% aller Ergebnisse landen werden. Wenn wir diese 50-Wurf-Experimente zig-mal wiederholen, werden 90% der Anzahlen “Kopf-Kopf” in diesem Intervall liegen. In unserem Fall ist das Intervall gegeben durch die linke (untere) Grenze \(k_L = 8\) und die rechte (obere) Grenze \(k_R = 17\). Für das Intervall können wir auch die übliche Schreibweise mit eckigen Klammern verwenden: \(\;[8,17]\)
Während das mittlere Gebiet um den Erwartungswert uns die mit grosser Wahrscheinlichkeit zu erwartenden \(k\)-Werte angibt (grün), stehen die linken und rechten Enden der Glockenform für die unwahrscheinlichen Extreme (rot). Diese Extreme sind unerwartet tiefe \(k\)-Werte oder unerwartet hohe \(k\)-Werte. Es ist z.B. möglich, dass in den 50 Würfen, die Kombination “Kopf-Kopf” nur gerade einmal vorkommt und 49 mal etwas anderes. Das ist aber sehr ungewöhnlich und hat eine entsprechend kleine Wahrscheinlichkeit. Die beiden Gebiete der Extreme bilden den sog. Verwerfungsbereich.
Das Vorhersageintervall wird die eine linke Grenze \(k_L\) und eine rechte Grenze \(k_R\) definiert:
\[ \big[ k_L, k_R \big] \]
Diese Grenzen sind so zu wählen, dass das Gebiet in Summe die Wahrscheinlichkeit von 90%, 95% oder 99% ausmachen:
\[ P(k_L \leq k \leq k_R) \;=\; 90\% \;=\; \sum_{k=k_L}^{k_R} P(X=k) \]
Meistens ist die Glockenform annähernd spiegelsymmetrisch, so dass der Erwartungswert in der Mitte dieses Intervalls zu liegen kommt. Je grösser die Wahrscheinlichkeit des Vorhersageintervalls, desto breiter ist es.
Das Komplement zum Vorhersageintervall ist der Verwerfungsbereich. Er macht in Summe die restlichen 10%, 5% oder 1% der Fälle aus, die am linken oder rechten Rand der Verteilung liegen.
Die Berechnung der Grenzen des Vorhersageintervalls können schnell aufwendig werden. Am einfachsten ist die Berechnung aller Wahrscheinlichkeiten in einem Spreadsheet (z.B. mit Excel). Sobald die Höhen der Säulen berechnet sind, kann die Summe einfach gebildet werden.
Es gibt aber eine schnelle Näherung, die die Berechnung dieser Grenzen erlaubt. Es ist eine Näherung, d.h. die Resultate sind nicht exakt, aber meistens ausreichend genau. Wer es ganz genau haben muss, kann diese nur aus einer Tabelle erhalten, die auf dem Computer berechnet worden ist.
Näherungsformel für die linke und rechte Grenze des Vorhersageintervalls bei Binomialverteilungen:
\[ k_L \;\;\approx\;\; \mu \;-\; u \cdot \sigma \quad \quad \quad k_R \;\;\approx\;\; \mu \;+\; u \cdot \sigma \]
Dabei ist \(n\) die Länge der Bernoulli-Kette und \(p\) die Wahrscheinlichkeit für einen Treffer im Bernoulli-Experiment. Weil die Grenze eine natürliche Zahl sein muss, wird der berechnete Wert am Schluss geeignet gerundet.
Diese Näherung darf nur verwendet werden, wenn die Standardabweichung grösser als 3 ist:
\[ \sigma > 3 \]
Der Parameter \(u\) wird gesetzt, je nach gewünschtem Sicherheitsniveau für das Vorhersageintervall:
Sicherheit | 80% | 90% | 95% | 98% | 99% |
Parameter \(u\) | 1.28 | 1.64 | 1.96 | 2.33 | 2.58 |
Quelle: DMK, “Stochastik, Theorie und Aufgaben für die Sekundarstufe II”, 1. Auflage, 2018, Orell Füssli Verlag, S. 128
Beispiel
Bestätige des 90%-Vorhersageintervall für den 50-fachen Wurf von zwei Münzen und dem Treffer “Kopf-Kopf” und berechne das 95%-Vorhersageintervall mit Hilfe der Näherungsformel.
Binomialtest
Jetzt kommen wir zum Auftrag der analytischen Statistik, nämlich zu einer unbekannten Wahrscheinlichkeit \(p\) eine Hypothese aufzustellen und diese dann zu testen.
Wir werden das an einem einfachen und deshalb künstlich wirkenden Beispiel anschauen, nämlich an der Analyse eines einfachen Spielwürfels. Der Vorteil liegt darin, dass wir die Wahrheit kennen und leicht überblicken und deshalb besser verstehen, was wir eigentlich tun. Sobald wir das Prinzip verstanden haben, können wir diese Technik auch auf unbekannte Phänomene anwenden.
Beispiel
Zwei Ausserirdische vom Planeten Statistika landen auf der Erde und fragen sich, mit welcher Wahrscheinlichkeit mit einem (fairen) Spielwürfel eine 6 gewürfelt wird. Sie wissen es beide nicht, beherrschen aber die Statistik…
Der Erste vermutet \(p_0\) = 20%. Der Zweite ist nicht einverstanden und sagt \(p_0\) = 20% stimmt sicher nicht!
Ablauf eines Binomialtests
- Nullhypothese \(H_0\) aufstellen, mit Wahrscheinlichkeit \(p_0\)
- Signifikanzniveau \(\alpha\) festlegen (z.B. 5%)
- Grösse der Stichprobe \(n\) festlegen
- Vorhersageintervall für \((1-\alpha)\) und Verwerfungsbereich für \(\alpha\) mit der Näherungsformel berechnen, unter Voraussetzung, dass \(\sigma > 3\)
- Resultate aus Experiment/Erhebung testen. Falls die Resultate deutlich im Vorhersageintervall liegen, kann die Hypothese bestätigt werden. Falls sie hingegen zu oft im Verwerfungsbereich liegen, wird die Hypothese verworfen.
Alpha-Fehler
Angenommen, unsere beiden Ausserirdischen hätten nur ein Würfelexperiment durchgeführt und der Zufall hätte es so gewollt, dass sie nur 8-mal eine 6 gezählt hätten. Damit wären das Ergebnis in den Verwerfungsbereich gefallen und sie hätten daraufhin die Nullhypothese \(H_0\) verworfen. Zugegeben, der Fall ist offensichtlich, aber das ist durchaus Absicht, um ihren Fehler zu verdeutlichen. Sie hätten in diesem Fall einen \(\alpha\)-Fehler erlitten.
Mit dem Fehler meine ich nicht die Tatsache, dass sie zu wenig getestet haben. Das ist ein anderer Fehler: Eine Hypothese kann nicht aufgrund einer einzigen Messung (eine Serie von 100 Würfen gilt als nur eine Messung) angenommen oder verworfen werden. Der \(\alpha\)-Fehler ist entstanden, weil sie unter dem falschen Eindruck waren, dass die Hypothese nicht stimmt. In der Praxis kann der \(\alpha\)-Fehler durchaus passieren, wenn der Verwerfungsbereich mit einer gewissen Wahrscheinlichkeit getroffen wird. Die Hypothese steht dann auf wackligen Beinen und kann möglicherweise verworfen werden.
Der Alpha-Fehler entsteht, wenn die Hypothese eigentlich stimmt, aber das Experiment den Verwerfungsbereich (zu oft) trifft, was zur fälschlichen Verwerfung der eigentlich richtigen Hypothese führt.
Die folgende Grafik soll diesen Umstand verdeutlichen. Eine unbekannte Wahrscheinlichkeitsverteilung (blau) soll untersucht werden. Sie kann mit vielen wiederholten Experimenten “abgetastet” werden, wobei sie einfach nach jedem Experiment (z.B. nach 100 Würfen des Würfels) ein neues Ergebnis liefert (Anzahl 6er). Diese Ergebnisse “regnen” wie zufällige Regentropfen herunter. Ganz zufällig sind sie nicht, denn mit der Zeit bestätigen sie die effektive Wahrscheinlichkeitsverteilung (blau).
Unten ist die Hypothese mit ihrer Wahrscheinlichkeitsverteilung gezeichnet. Wir sehen sofort, dass die Hypothese eigentlich stimmt. Die Ergebnisse treffen jetzt unten ein. Es kann aber durchaus sein, wenn auch etwas unwahrscheinlich, dass der Verwerfungsbereich in rot (zu oft) getroffen wird. Falls dann das Experiment vorzeitig abgebrochen wird und die vorhandenen Ergebnisse zu einem Verwerfen der Hypothese führen, haben wir den \(\alpha\)-Fehler.
Beta-Fehler
Der \(\beta\)-Fehler ist ähnlich zum \(\alpha\)-Fehler, aber eigentlich der umgekehrt Fall. Unsere beiden Ausserirdischen haben eine Hypothese aufgestellt, die eigentlich falsch ist. Weil aber 90% ihrer Experimente sie bestätigt haben, gingen sie davon aus, dass die Hypothese stimmt. Eigentlich hätten Sie mehr auf die eine Abweichung acht geben sollen. Hätten sie ihr Experiment mehr als 10 mal wiederholt, hätten sie gemerkt, dass sie bei rund 90% Zustimmung geblieben wären, obwohl sie mit einem 95%-Vorhersageintervall arbeiten. Das ist ein Hinweise auf eine leichte Abweichung.
Hätten Sie wirklich richtig getippt, dann wäre mit einer sehr grossen Anzahl an Experimenten die echte Wahrscheinlichkeitsverteilung herausgekommen mit 95% der Ergebnisse in ihrem 95%-Vorhersageintervall!
Der Beta-Fehler entsteht, wenn die Hypothese nicht stimmt, aber das Experiment das Vorhersageintervall (zu oft) trifft, was zur fälschlichen Annahme der falschen Hypothese führt.
In der folgenden Grafik sehen wir zwei Fälle mit \(\beta\)-Fehler. Dabei ist \(\beta\) die summierte Wahrscheinlichkeit der Ergebnisse in der vermuteten Wahrscheinlichkeitsverteilung, jedoch nur für Ergebnisse aus dem Vorhersageintervall der echten Verteilung.
Links treffen die Ergebnisse aus dem 90%-Vorhersageintervall der Realität auf die Verteilung der vermuteten Wahrscheinlichkeit. Der oder die Statistiker(in) wird feststellen, dass die Ergebnisse mehrheitlich den linken Rand treffen und vor allem im Verwerfungsbereich landen. Nur ganz wenige Ergebnisse sind noch knapp im vermuteten Vorhersageintervall. Die Summe der Wahrscheinlichkeiten, die rot eingezeichnet sind, betragen vielleicht ca. 10%. Niemand würde aufgrund von \(\beta \approx\) 10% die Hypothese fälschlicherweise annehmen und damit den \(\beta\)-Fehler machen!
Rechts ist die Sache aber komplizierter. Durch die stärkere Überlappung haben wir einen grösseren roten Bereich und rund ein Drittel der Ergebnisse, vielleicht sogar \(\beta \approx\) 40%, fallen in den roten Bereich. Ein grosser Teil dieses Bereichs ist im Vorhersageintervall. Der oder die Statistiker(in) wird eine Bestätigung einer Hypothese vermuten und die par wenigen Treffer im Verwerfungsbereich ignorieren. Hier besteht die Gefahr, dass bei einem \(\beta \approx 40\%\) die falsche Hypothese angenommen wird, was dem \(\beta\)-Fehler entspricht!
Wir erkennen jetzt, dass die beiden Ausserirdischen eigentlich den \(\beta\)-Fehler gemacht haben. Wir müssen aber zugeben, dass ihre Hypothese schon so gut, dass wir sie durchaus als valide Näherung akzeptieren müssen, d.h. eine fast richtige Hypothese, die durch das Experiment praktisch bestätigt worden ist.
Was sollen wir aber tun, wenn wir eine gewisse Überlappung haben und \(\beta\) zu gross ist? Wir können die Überlappung reduzieren durch die Vergrösserung der Stichprobe \(n\). Mit einer 9-mal grösseren Stichprobe, wird der Erwartungswert ebenfalls 9-mal grösser, da \(\mu = np\). Das gilt aber für beide Verteilungen, d.h. der Abstand der beiden Verteilungen wird 9-fach grösser.
Problematisch ist, dass die Breite der Verteilungen auch grösser wird. Da die Standardabweichung \(\sigma\) aber mit der Wurzel der Länge \(n\) wächst, d.h. in unserem Fall mit dem Faktor \(\sqrt{9} = 3\), wird die Breite beider Verteilungen 3-mal grösser, jedoch bei 9-fachem Abstand. Die beiden Verteilungen überlappen sich deshalb weniger stark und das \(\beta\) sinkt.
Vermeidung des Beta-Fehlers
Bei einem zu grossen \(\beta\) besteht die Gefahr des Beta-Fehlers. \(\beta\) kann verringert werden, z.B. auf ein weniger kritisches Niveau, z.B. 10% oder weniger, indem die Stichprobengrösse \(n\) vergrössert wird.
Aufgabensammlung
publiziert:
überarbeitet:
publiziert:
überarbeitet:
Schreib deine Frage / Kommentar hier unten rein. Ich werde sie beantworten.
Inhalt
Schreibe einen Kommentar
Du musst angemeldet sein, um einen Kommentar abzugeben.