Pommes der Pinguin hält einen grossen gelben Stern in den Händen
Pommes der Pinguin hält einen grossen gelben Stern in den Händen
30 Tage kostenlos testen
30 Tage kostenlos testen
Über 1,6 Millionen Schüler*innen nutzen sofatutor Über 1,6 Millionen Schüler*innen nutzen sofatutor
Lernpakete anzeigen
Lernpakete anzeigen
Lernpakete anzeigen

Signifikanztests

Entscheidungsregel, Nullhypothese, Alternativhypothese, Fehler 1. Art, Fehler 2. Art, Signifikanzniveau, einseitiger Test, zweiseitiger Test, Normalverteilung

Inhaltsverzeichnis zum Thema

Signifikanztest

Statistische Testverfahren helfen uns mittels Beobachtungen auf unbekannte Wahrscheinlichkeiten pp zu schließen. Im Gegensatz zum Alternativtest wird beim Signifikanztest nicht zwischen zwei Wahrscheinlichkeiten p1p_1 und p2p_2 entschieden. Vielmehr haben wir beim Signifikanztest nur eine Vermutung über pp, die durch einen statistischen Test entweder bestätigt oder verworfen werden soll. Es gibt ein- und zweiseitige Signifikanztests.

Vorbereitendes

Insgesamt solltest du schon mit Alternativtests und den Fehlerarten (Fehler 1. und 2. Art) vertraut sein und wissen, wie du aus der Tabelle der kumulierten Binomialverteilung Werte abliest. Hier kannst du dir noch einmal die Fehlerarten vergegenwärtigen.

Hypothesen.JPG

Dabei entspricht der α\alpha-Fehler dem Fehler 1. Art und der β\beta-Fehler dem Fehler 2. Art.

Schauen wir uns ein Beispiel für einen einseitigen Signifikanztest an.

Einseitiger Signifikanztest - Beispiel

Eine Pharma-Herstellerin hat viele Jahre an einem neuen Medikament geforscht. Nun möchte sie natürlich auch wissen, wie wirksam es ist. Wo findet sie eine Antwort auf diese Frage?

Chemikerin.jpg

Das beste vergleichbare Medikament wirkt in 40 %40~\% der Fälle. Die Pharma-Herstellerin geht natürlich davon aus, dass ihr Medikament noch häufiger wirkt und legt die Hypothese fest: Mein Medikament ist noch wirksamer (H1H_1). Dazu werden 5050 Probanden ausgewählt und sie sagt:

  • Wenn das Medikament bei weniger oder gleich 2525 Probanden wirkt, dann ist mein Medikament nur genauso gut wie das alte.
  • Wenn das Medikament bei mehr als 2525 Probanden wirkt, dann ist mein Medikament besser als das alte.

Wir stellen uns nun die entscheidende Frage: Wie hoch ist die Wahrscheinlichkeit, dass die Pharma-Herstellerin ihr Medikament für besser hält, obwohl es nicht besser ist?

Sich einen Überblick verschaffen

Bei Signifikanztests wird es schnell unübersichtlich. Es ist daher sehr wichtig, die Informationen systematisch festzuhalten:

  • nn ist die Anzahl aller Probanden (Stichprobengröße). XX ist die Anzahl der Probanden, bei denen das Medikament wirkt (Prüfgröße). Weil die Prüfgröße ungefähr binomialverteilt ist, können wir im Folgenden die Tabelle zur kumulierten Binomialverteilung verwenden.
  • pp ist die Wahrscheinlichkeit, dass das neue Medikament wirkt.
  • H0H_0 ist die (Null-)Hypothese, dass das neue Medikament genauso gut ist wie das alte. Wir schreiben: H0:p=0,4H_0: p=0,4
  • H1H_1 ist die Hypothese, dass das neue Medikament besser ist als das alte. Wir schreiben: H1:p>0,4H_1: p \gt 0,4. Diese Hypothese (die Gegenhypothese) ist also aus unendlich vielen Werten pp zusammengesetzt.

Wir halten noch die Entscheidungsregel fest:

  • X25H0X \le 25 \Rightarrow H_0 wird angenommen
  • X>25H0X \gt 25 \Rightarrow H_0 wird verworfen

Fehler 1. Art berechnen

Nun können wir die Wahrscheinlichkeit für den Fehler 1. Art berechnen: P(P (Fehler 1. Art)). H0H_0 ist also richtig, wird aber für H1H_1 verworfen. Dafür können wir auch schreiben: PH0(P_{H_0}(Entscheidung für H1)H_1)

=P(X>25),n=50,p=0,4=1P(X25)=1F(50;0,4;25)10,9022=0,0978=9,78 %\begin{array}{rcl} & = & P(X \gt 25), n = 50, p = 0,4\\ & = &1 - P(X \le 25)\\ & = & 1 - F(50; 0,4; 25)\\ & \approx & 1 - 0,9022\\ & = & 0,0978\\ & = & 9,78 ~\%\\ \end{array}

Wir sprechen nun von einem Signifikanzniveau von 9,78 %9,78 ~\%. Dieser Wert ist nicht super, aber in Ordnung. Zu 9,78 %9,78 ~\% glaubt die Pharma-Herstellerin bei obiger Entscheidungsregel, ihr Medikament sei besser, obwohl es das nicht ist.

Fehler 2. Art berechnen

Sehr ähnlich lässt sich der Fehler 2. Art berechnen: P(P(Fehler 2. Art)). H1H_1 ist die richtige Hypothese, aber es wird trotzdem H0H_0 für richtig gehalten. Dieser Fehler wird mathematisch so geschrieben: PH1(P_{H_1}(Entscheidung für H0)H_0)

=P(X<25),n=50,p>0,4=F(50;p;25){0,5561=55,61 %falls p=0,50,0978=9,78 %falls p=0,60,0024=0,24 %falls p=0,7\begin{array}{rcl} & = & P(X \lt 25), n = 50, p \gt 0,4\\ & = & F(50; p ; 25)\\ & \approx & \begin{cases} 0,5561=55,61~\% & \text{falls } p=0,5 \\ 0,0978 = 9,78~\% & \text{falls } p=0,6 \\ 0,0024 = 0,24~\% & \text{falls } p = 0,7 \end{cases} \end{array}

Wie wir sehen, ist die Irrtumswahrscheinlichkeit umso kleiner, je größer pp ist. Je wirksamer das Medikament, desto geringer die Wahrscheinlichkeit, dass wir es zu Unrecht für weniger wirksam als das alte Medikament halten.

Signifikanzniveau

Zuoberst sind wir von der Entscheidungsregel ausgegangen und haben das Signifikanzniveau (Fehler 1. Art) berechnet. Normalerweise läuft das aber genau umgekehrt. Es ist ein Signifikanzniveau gegeben und daran muss sich die Entscheidungsregel orientieren: Wir legen also zuerst fest, wie wahrscheinlich ein Fehler 1. Art sein soll, und berechnen dann eine entsprechende Entscheidungsregel. Ein sinnvolles Signifikanzniveau ist in der Regel niedrig: 5 %5~\% oder 1 %1~\%.

Zweiseitiger Signifikanztest - Beispiel

Sancho möchte die Gewichtsverteilung von Euro-Münzen untersuchen. Dahinter verbirgt sich ein zweiseitiger Signifikanztest

Münze_2.jpg

Er fragt sich, ob die 2-Euro-Münze fair ist: Dann müsste sie bei vielen Münzwürfen etwa gleich häufig „Kopf“ und „Zahl“ anzeigen. Er will n=100n=100 Mal werfen. Er formuliert die Nullhypothese H0H_0: Die Münze ist fair: p=0,5p=0,5 und die Gegenhypothese H1H_1: Die Münze ist nicht fair: p0,5p \neq 0,5.

Er legt sich vorher fest: Weicht die Anzahl an „Kopf“-Würfen um 88 oder mehr vom Erwartungswert 5050 ab, so nehme ich an, dass die Münze nicht fair ist.

α=P(X42)+P(X58),p=0,5=F(100;0,5;42)+1F(100;0,5;57)0,0666+0,0666=0,1332\begin{array}{rcl} \alpha & = & P(X \le 42) + P(X \ge 58), p = 0,5\\ & = & F(100; 0,5; 42) + 1 - F(100; 0,5; 57)\\ & \approx & 0,0666 + 0,0666\\ & = & 0,1332 \end{array}

Unter der obigen Entscheidungsregel liegt die Wahrscheinlichkeit, dass Sancho die Münze irrtümlich für unfair hält, bei 13,32 %13,32~\%. Das ist ein vergleichsweise hohes Signifikanzniveau. Vielleicht sollte Sancho seine Entscheidungsregel überdenken.

Signifikanzniveau - Beispiel

Sancho ist das Signifikanzniveau zu hoch. Er legt fest, dass er nur zu höchstens 5 %5~\% einen Fehler 1. Art begehen möchte.

Weil die Intervalle links und rechts des Erwartungswertes gleich groß und symmetrisch sind, muss auch das Signifikanzniveau gleich verteilt sein:

α0,025+0,025=0,05 \alpha \le 0,025 + 0,025 = 0,05

Für das „linke“ Intervall muss also gelten:

F(100;0,5;X)0,025F(100; 0,5; X) \le 0,025

Wenn Sancho einen Blick in die Tabelle für kumulierte Binomialverteilung wirft, kann er X=39X=39 als kritische Grenze ablesen:

F(100;0,5;39)0,0176F(100; 0,5; 39) \approx 0,0176

Der Wert bei X=40X=40 wäre schon größer als 0,0250,025 gewesen. Weil die Intervalle gleich groß sind, muss seine Entscheidungsregel lauten: Wenn das Ergebnis um mindestens 1111 vom Erwartungswert abweicht (0X390 \le X \le 39 und 61X10061 \le X \le 100), dann halte ich die Münze für unfair.