Zu lange aufzugeben, wurde die Karriere vieler Wissenschaftler um das Streben nach einer einzigen Statistik herum aufgebaut: p<.05.
In vielen wissenschaftlichen Disziplinen ist dies die Schwelle, ab der die Studienergebnisse als „statistisch signifikant“ deklariert werden können, was oft so interpretiert wird, dass es unwahrscheinlich ist, dass die Ergebnisse ein Zufall waren, ein Ergebnis zufälliger Zufälle.
Obwohl dies in der Praxis nicht der Fall ist., „Statistische Signifikanz“ wird zu oft missverstanden — und missbraucht. Aus diesem Grund fordert ein Trio von Wissenschaftlern, die diese Woche in Nature schreiben, „dass das gesamte Konzept der statistischen Signifikanz aufgegeben wird.“
Ihr größtes Argument: „Statistisch signifikant „oder“ nicht statistisch signifikant „wird zu oft falsch interpretiert, um entweder“ die Studie hat funktioniert „oder“ die Studie hat nicht funktioniert “ zu bedeuten.“Ein“ wahrer “ Effekt kann manchmal einen p-Wert von größer als ergeben .05. Und wir wissen aus den letzten Jahren, dass die Wissenschaft voller falsch positiver Studien ist, die Werte von weniger als erreicht haben .,05 (lesen Sie meinen Erklärer zur Replikationskrise in der Sozialwissenschaft für mehr).
Die Autoren des Naturkommentars argumentieren, dass die Mathematik nicht das Problem ist. Stattdessen ist es die menschliche Psychologie. Die Umwandlung der Ergebnisse in“ statistisch signifikant „und“ statistisch nicht signifikant“, schreiben sie, führt zu einem zu Schwarz-Weiß-Ansatz zur Überprüfung der Wissenschaft.
Mehr als 800 weitere Wissenschaftler und Statistiker auf der ganzen Welt haben sich diesem Manifest angeschlossen. Im Moment scheint es eher ein provokatives Argument zu sein als der Beginn eines echten Seewechsels., „Die Natur „zum einen“ versucht nicht zu ändern, wie sie die statistische Analyse bei der Bewertung von Papieren zu diesem Zeitpunkt betrachtet“, stellte die Zeitschrift fest.
Aber die Gezeiten können gegen „statistische Signifikanz steigen.“Dies ist nicht das erste Mal, dass Wissenschaftler und Statistiker den Status quo in Frage gestellt haben. Im Jahr 2016 schrieb ich darüber, wie eine große Gruppe von ihnen forderte, die Schwelle zu erhöhen .005, was es viel schwieriger macht, ein Ergebnis als „statistisch signifikant“ zu bezeichnen.,“(Gleichzeitig widmete die Zeitschrift The American Statistician mit dem Nature-Kommentar eine ganze Ausgabe dem Problem der „statistischen Signifikanz“.“) Es gibt eine breite Erkenntnis, dass p-Werte problematisch sein können.
Ich vermute, dass dieser Vorschlag stark diskutiert wird (wie alles in der Wissenschaft). Zumindest zeigt dieser jüngste Aufruf zu radikalen Veränderungen eine wichtige Tatsache, die die Wissenschaft plagt: Die statistische Signifikanz wird weithin missverstanden. Lassen Sie mich Sie durch sie gehen., Ich denke, es wird Ihnen helfen, diese Debatte besser zu verstehen, und Ihnen helfen zu sehen, dass es viel mehr Möglichkeiten gibt, die Vorzüge eines wissenschaftlichen Befundes als p-Werte zu beurteilen.
Warte, was ist ein p-Wert? Was ist statistische Signifikanz?
Selbst die einfachsten Definitionen von p-Werten werden in der Regel kompliziert.
Wenn Forscher einen p-Wert berechnen, testen sie die sogenannte Nullhypothese., Das erste, was Sie wissen sollten: Dies ist kein Test für die Frage, die der Experimentator am dringendsten beantworten möchte.
Angenommen, der Experimentator möchte wirklich wissen, ob der Verzehr einer Tafel Schokolade pro Tag zu Gewichtsverlust führt. Um dies zu testen, weisen sie 50 Teilnehmern zu, eine Tafel Schokolade pro Tag zu essen. Weitere 50 werden befohlen, auf das leckere Zeug zu verzichten. Beide Gruppen werden vor dem Experiment und dann danach gewogen und ihre durchschnittliche Gewichtsänderung verglichen.
Die Nullhypothese ist das Hauptargument des Teufels., Es heißt, es gibt keinen Unterschied im Gewichtsverlust der Schokoladenfresser gegenüber den Schokoladenenthaltern.
Die Ablehnung der Null ist eine große Hürde, die Wissenschaftler klären müssen, um ihre Hypothese zu beweisen. Wenn die Null steht, bedeutet dies, dass sie keine wichtige alternative Erklärung für ihre Ergebnisse eliminiert haben. Und was ist Wissenschaft, wenn nicht ein Prozess der Einengung von Erklärungen?
Wie schließen sie also die Null aus? Sie berechnen einige Statistiken.,
Der Forscher fragt grundsätzlich: Wie lächerlich wäre es zu glauben, dass die Nullhypothese angesichts der Ergebnisse, die wir sehen, die wahre Antwort ist?
Die Ablehnung der Null ähnelt dem Prinzip“ unschuldig bis schuldig bewiesen “ in Gerichtsverfahren, erklärte Regina Nuzzo, Mathematikprofessorin an der Gallaudet University. Vor Gericht beginnen Sie mit der Annahme, dass der Angeklagte unschuldig ist. Dann fangen Sie an, sich die Beweise anzusehen: das blutige Messer mit seinen Fingerabdrücken, seine Gewaltgeschichte, Augenzeugenberichte., Als die Beweise steigen, beginnt diese Unschuldsvermutung naiv auszusehen. An einem bestimmten Punkt haben die Geschworenen zweifelsfrei das Gefühl, dass der Angeklagte nicht unschuldig ist.
Das Testen der Nullhypothese folgt einer ähnlichen Logik: Wenn es große und konsistente Gewichtsunterschiede zwischen den Schokoladenfressern und Schokoladenenthaltern gibt, sieht die Nullhypothese — dass es keine Gewichtsunterschiede gibt — albern aus und Sie können sie ablehnen.
Sie denken vielleicht: Ist das nicht ein ziemlich umständlicher Weg, um zu beweisen, dass ein Experiment funktioniert hat?
Sie haben Recht!,
Die Ablehnung der Nullhypothese ist ein indirekter Beweis für eine experimentelle Hypothese. Es sagt nichts darüber aus, ob Ihre wissenschaftliche Schlussfolgerung richtig ist.
Sicher, die Schokoladenfresser können etwas Gewicht verlieren. Aber ist es wegen der Schokolade? Vielleicht. Oder vielleicht fühlten sie sich besonders schuldig, jeden Tag Süßigkeiten zu essen, und sie wussten, dass sie von Fremden gewogen werden würden, die Labormäntel tragen (seltsam!), so dass sie auf andere Mahlzeiten knauserten.
Das Ablehnen der Null sagt nichts über den Mechanismus aus, durch den Schokolade Gewichtsverlust verursacht., Es sagt Ihnen nicht, ob das Experiment gut gestaltet oder gut kontrolliert ist oder ob die Ergebnisse von der Kirsche gepflückt wurden.
Es hilft Ihnen nur zu verstehen, wie selten die Ergebnisse sind.
Aber — und das ist ein kniffliger, kniffliger Punkt-es ist nicht so selten, dass die Ergebnisse Ihres Experiments sind. Es ist, wie selten die Ergebnisse in der Welt wären, in der die Nullhypothese wahr ist. Das heißt, es ist, wie selten die Ergebnisse wären, wenn nichts in Ihrem Experiment funktionieren würde und der Gewichtsunterschied allein auf zufälligen Zufall zurückzuführen wäre.,
Hier kommt der p-Wert ins Spiel: Der p-Wert quantifiziert diese Seltenheit. Es sagt Ihnen, wie oft Sie die numerischen Ergebnisse eines Experiments sehen würden — oder noch extremere Ergebnisse -, wenn die Nullhypothese wahr ist und es keinen Unterschied zwischen den Gruppen gibt.
Wenn der p-Wert sehr klein ist, bedeutet dies, dass die Zahlen selten (aber nicht nie!) treten nur durch Zufall auf. Wenn das p also klein ist, denken die Forscher, dass die Nullhypothese unwahrscheinlich aussieht. Und sie machen einen Sprung zu dem Schluss, „dass ihre Daten wahrscheinlich nicht zufällig sind“, erklärt Nuzzo.,
Hier ist ein weiterer kniffliger Punkt: Forscher können die Null niemals vollständig ausschließen (genau wie Geschworene keine Zeugen eines Verbrechens aus erster Hand sind). Wissenschaftler wählen stattdessen einen Schwellenwert, an dem sie sich ziemlich sicher fühlen, dass sie die Null ablehnen können. Für viele Disziplinen, das ist jetzt auf weniger als eingestellt .05.
Im Idealfall ein p von .Das heißt, wenn Sie das Experiment 100 Mal durchgeführt haben — wiederum unter der Annahme, dass die Nullhypothese wahr ist — würden Sie dieselben Zahlen (oder extremere Ergebnisse) fünfmal sehen.,
Und ein letztes, super-dornige Konzept, das fast jeder falsch macht: Ein p<.Dies bedeutet nicht, dass es weniger als eine 5-prozentige Chance gibt, dass Ihre experimentellen Ergebnisse auf zufällige Zufälle zurückzuführen sind. Es bedeutet nicht, dass es nur eine 5-prozentige Chance gibt, dass Sie auf einem falsch positiven gelandet sind. Nein. Gar.
Wieder: Ein p-Wert von weniger als .dies bedeutet, dass es in der Welt, in der die Nullhypothese wahr ist, weniger als eine 5-prozentige Chance gibt, diese Ergebnisse (oder extremere Ergebnisse) zu sehen. Das klingt kitschig, ist aber kritisch., Es ist das Missverständnis, das dazu führt, dass Menschen übermäßig zuversichtlich in p-Werte sind. Die falsch-positive Rate für Experimente bei p=.05 kann viel höher als 5 Prozent sein.
Wiederholen wir es: P-Werte sagen Ihnen nicht unbedingt, ob ein Experiment „funktioniert“ hat oder nicht
Psychologie Doktorand Kristoffer Magnusson hat einen ziemlich coolen interaktiven Taschenrechner entwickelt, der die Wahrscheinlichkeit schätzt, einen Bereich von p-Werten für einen bestimmten wahren Unterschied zwischen Gruppen zu erhalten. Ich habe es verwendet, um das folgende Szenario zu erstellen.,
Angenommen, es gibt eine Studie, in der der tatsächliche Unterschied zwischen zwei Gruppen einer halben Standardabweichung entspricht. (Ja, das ist eine nerdige Art, es auszudrücken. Aber denken Sie so: Es bedeutet 69 Prozent der in der Versuchsgruppe zeigen Ergebnisse, die höher sind als der Mittelwert der Kontrollgruppe. Forscher nennen dies einen“ mittelgroßen “ Effekt.) Und lassen Sie uns sagen, es sind 50 Personen in der experimentellen Gruppe und der Kontrollgruppe.
In diesem Szenario sollten Sie nur einen p-Wert zwischen erhalten können .03-und .05 rund 7,62 Prozent der Zeit.,
Wenn Sie dieses Experiment immer wieder durchführen, würden Sie tatsächlich viel mehr p-Werte mit einer viel niedrigeren Zahl erwarten. Das zeigt die folgende Tabelle. Die x-Achse sind die spezifischen p-Werte und die y-Achse ist die Häufigkeit, mit der Sie dieses Experiment wiederholen würden. Schauen Sie, wie viele p-Werte Sie unten finden würden .001.
Aus diesem Grund sind viele Wissenschaftler vorsichtig, wenn sie zu viele Ergebnisse sehen .05. Es sollte nicht so oft passieren und wirft rote Fahnen, dass die Ergebnisse Kirsche gepflückt wurden, oder, in der Wissenschaft-sprechen, „p-gehackt.,“In der Wissenschaft kann es viel zu einfach sein, Statistiken zu spielen und zu optimieren, um eine Signifikanz zu erzielen.
Und aus diesem Diagramm sehen Sie: Ja, Sie können einen p-Wert von größer als erhalten .05 wenn eine experimentelle Hypothese wahr ist. Es sollte einfach nicht so oft passieren. In diesem Fall sollten rund 9,84 Prozent aller p-Werte dazwischen fallen .05-und .1.
Es gibt bessere, differenziertere Ansätze zur Bewertung der Wissenschaft
Viele Wissenschaftler erkennen, dass es robustere Möglichkeiten gibt, einen wissenschaftlichen Befund zu bewerten. Und sie engagieren sich bereits in ihnen., Aber sie haben derzeit irgendwie nicht so viel Macht wie “ statistische Signifikanz.“Sind Sie:
- Konzentration auf die effektstärken (wie groß ein Unterschied macht eine intervention machen, und ist es praktisch sinnvoll?)
- Konfidenzintervalle (was ist der Bereich des Zweifels, der in eine gegebene Antwort eingebaut ist?,)
- Ob ein Ergebnis ist eine neue Studie-oder eine Replikation (legen Sie etwas mehr Gewicht in eine Theorie viele Labore haben)
- Ob eine Studie design wurde Voranmeldung (so, dass die Autoren können nicht ändern Ihre Ergebnisse post-test), und dass die zugrunde liegenden Daten frei zugänglich ist (so dass jeder überprüfen kann, die Mathematik)
- Es gibt auch alternative statistische Methoden wie Bayes-Analyse in mancher Hinsicht mehr direkt von einer Studie, die Ergebnisse. (P-Werte stellen die Frage „Wie selten sind meine Ergebnisse?,“Bayes-Faktoren, die die Frage stellen „was ist die Wahrscheinlichkeit meiner Hypothese die beste Erklärung für die Ergebnisse, die wir gefunden?“Beide Ansätze haben Kompromisse. )
Das eigentliche problem ist nicht mit statistischer Signifikanz; es ist mit der Kultur, der Wissenschaft
Die Autoren der jüngsten Natur-Kommentare sind nicht Aufruf für das Ende der p-Werte. Sie möchten immer noch, dass Wissenschaftler sie gegebenenfalls melden, aber nicht unbedingt als „signifikant“ bezeichnen oder nicht.
Es wird wahrscheinlich Streit um diese Strategie geben., Einige denken vielleicht, dass es nützlich ist, einfache Faustregeln oder Schwellenwerte zu haben, um die Wissenschaft zu bewerten. Und wir müssen immer noch Phrasen in unserer Sprache haben, um wissenschaftliche Ergebnisse zu beschreiben. Das Löschen der „statistischen Signifikanz“ könnte die Dinge nur verwirren.
In jedem Fall wird das eigentliche Problem nicht behoben, wenn die Definition der statistischen Signifikanz geändert oder vollständig nixing wird. Und das eigentliche Problem ist die Wissenschaftskultur.
Im Jahr 2016 schickte Vox eine Umfrage an mehr als 200 Wissenschaftler und fragte: „Wenn Sie etwas daran ändern könnten, wie Wissenschaft heute funktioniert, was wäre das und warum?,“Eines der klaren Themen in den Antworten: Die Institutionen der Wissenschaft müssen besser darin sein, Misserfolge zu belohnen.
Ein junger Wissenschaftler sagte uns: „Ich fühle mich hin-und hergerissen zwischen Fragen, von denen ich weiß, dass sie zu statistischer Signifikanz führen werden, und Fragen, die wichtig sind.“
Das größte Problem in der Wissenschaft ist nicht die statistische Signifikanz, sondern die Kultur. Sie fühlte sich zerrissen, weil junge Wissenschaftler Publikationen brauchen, um Jobs zu bekommen. Unter dem Status quo benötigen Sie statistisch signifikante Ergebnisse, um Veröffentlichungen zu erhalten. Statistische Signifikanz allein führte nicht zur Replikationskrise., Die Institutionen der Wissenschaft haben Anreize für das Verhalten geschaffen, das es ihr ermöglichte zu eitern.
Unterstützen Sie den erklärenden Journalismus von Vox
Jeden Tag bei Vox möchten wir Ihre wichtigsten Fragen beantworten und Ihnen und unserem Publikum auf der ganzen Welt Informationen zur Verfügung stellen, die Sie durch Verständnis befähigen. Die Arbeit von Vox erreicht mehr Menschen als je zuvor, aber unsere unverwechselbare Marke des erklärenden Journalismus benötigt Ressourcen. Ihr finanzieller Beitrag stellt keine Spende dar, ermöglicht es unseren Mitarbeitern jedoch weiterhin, allen, die sie benötigen, kostenlose Artikel, Videos und Podcasts anzubieten., Bitte erwägen Sie einen Beitrag zu Vox heute, von so wenig wie $3.