te lang te verlaten, veel wetenschappers hebben hun loopbaan opgebouwd rond het nastreven van één enkele statistiek: p<.05.
in veel wetenschappelijke disciplines is dat de drempel waarboven studieresultaten “statistisch significant” kunnen worden verklaard, wat vaak wordt geïnterpreteerd als betekent dat het onwaarschijnlijk is dat de resultaten een toevalstreffer waren, een resultaat van willekeurige toeval.
hoewel dit niet is wat het eigenlijk betekent in de praktijk., “Statistische significantie” wordt te vaak verkeerd begrepen — en misbruikt. Dat is de reden waarom een trio van wetenschappers schrijven in Nature deze week roepen ” voor het hele concept van statistische significantie te worden verlaten.”
hun grootste argument:” statistisch significant “of” niet statistisch significant “wordt te vaak gemakkelijk verkeerd geïnterpreteerd als” het onderzoek werkte “of” het onderzoek werkte niet.”Een” waar ” effect kan soms een p-waarde van groter dan opleveren .05. En we weten van de afgelopen jaren dat de wetenschap is vol met vals-positieve studies die waarden van minder dan bereikt .,05 (lees mijn uitleg over de replicatiecrisis in de sociale wetenschap voor meer).
De auteurs van Nature commentary beweren dat de wiskunde niet het probleem is. In plaats daarvan is het menselijke psychologie. Bucketing resultaten in “statistisch significant” en “statistisch niet-significant,” schrijven ze, leidt tot een te Zwart-wit benadering van het onderzoeken van de wetenschap.meer dan 800 andere wetenschappers en statistici over de hele wereld hebben dit manifest ondertekend. Voor nu lijkt het meer een provocerend argument dan het begin van een echte grote verandering., “De natuur,” voor een, ” is niet op zoek om te veranderen hoe het beschouwt statistische analyse in de evaluatie van papers op dit moment,” het tijdschrift opgemerkt.
maar de getijden kunnen stijgen tegen ” statistische significantie.”Dit is niet de eerste keer dat wetenschappers en statistici de status quo hebben uitgedaagd. In 2016 schreef ik over hoe een grote groep van hen riep op tot het verhogen van de drempel naar .005, waardoor het veel moeilijker is om een resultaat statistisch significant te noemen.,”(Gelijktijdig, met de natuur commentaar, het tijdschrift The American Statistician wijdde een hele uitgave aan het probleem van “statistische significantie.”) Er is een brede erkenning dat p-waarden problematisch kunnen zijn.
Ik vermoed dat dit voorstel zwaar zal worden besproken (zoals alles in de wetenschap). Deze laatste oproep tot radicale verandering benadrukt in ieder geval een belangrijk feit dat de wetenschap teistert: statistische significantie wordt op grote schaal verkeerd begrepen. Laat me je er doorheen leiden., Ik denk dat het je zal helpen dit debat beter te begrijpen, en je zal helpen inzien dat er veel meer manieren zijn om de verdiensten van een wetenschappelijke bevinding te beoordelen dan p-waarden.
wacht, Wat is een p-waarde? Wat is statistische significantie?
zelfs de eenvoudigste definities van p-waarden lijken ingewikkeld te worden, dus heb even geduld als ik het opsplits.
wanneer onderzoekers een p-waarde berekenen, testen ze wat bekend staat als de nulhypothese., Eerste ding om te weten: Dit is niet een test van de vraag die de onderzoeker het meest wanhopig wil beantwoorden.
laten we zeggen dat de onderzoeker echt wil weten of het eten van een reep chocolade per dag leidt tot gewichtsverlies. Om dat te testen, wijzen ze 50 deelnemers toe om één reep chocolade per dag te eten. Nog eens 50 worden bevolen zich te onthouden van het heerlijke spul. Beide groepen worden vóór het experiment en daarna gewogen en hun gemiddelde gewichtsverandering wordt vergeleken.
de nulhypothese is het Devil ‘ s advocate argument., Er staat dat er geen verschil is in het gewichtsverlies van de chocoladeeters versus de chocoladeonthouders.
het afwijzen van de nul is een belangrijke hindernis die wetenschappers nodig hebben om hun hypothese te bewijzen. Als De null staat, betekent dit dat ze geen belangrijke alternatieve verklaring voor hun resultaten hebben geëlimineerd. En wat is wetenschap anders dan een proces van het beperken van verklaringen?
dus hoe sluiten ze de null uit? Ze berekenen wat statistieken.,
De onderzoeker vraagt in principe: hoe belachelijk zou het zijn om te geloven dat de nulhypothese het ware antwoord is, gezien de resultaten die we zien?
het afwijzen van de nul is een beetje als het “onschuldig tot bewezen schuldig” principe in rechtszaken, Regina Nuzzo, een wiskundeprofessor aan Gallaudet University, uitgelegd. In de rechtbank begin je met de veronderstelling dat de verdachte onschuldig is. Dan kijk je naar het bewijs, het bebloede mes met zijn vingerafdrukken erop, zijn geschiedenis van geweld, ooggetuigenverslagen., Naarmate het bewijs toeneemt, begint dat vermoeden van onschuld naïef te lijken. Op een gegeven moment krijgen juryleden het gevoel, zonder gerede twijfel, dat de verdachte niet onschuldig is.
nulhypothese testen volgt een soortgelijke logica: als er enorme en consistente gewichtsverschillen zijn tussen de chocoladeeters en chocoladeonthouders, begint de nulhypothese — dat er geen gewichtsverschillen zijn — er dom uit te zien en kunt u het afwijzen.
u zou kunnen denken: is dit niet een mooie omweg om te bewijzen dat een experiment werkte?
u hebt gelijk!,
het afwijzen van de nulhypothese is indirect bewijs van een experimentele hypothese. Het zegt niets over de vraag of uw wetenschappelijke conclusie juist is.
zeker, de chocoladeeters kunnen wat gewicht verliezen. Maar komt het door de chocolade? Misschien. Of misschien voelden ze zich extra schuldig door elke dag snoep te eten, en wisten ze dat ze zouden worden gewogen door vreemden die labjassen droegen (raar!), dus ze zuinig op andere maaltijden.
het afwijzen van de null vertelt u niets over het mechanisme waardoor chocolade gewichtsverlies veroorzaakt., Het vertelt je niet of het experiment is goed ontworpen, of goed gecontroleerd voor, of als de resultaten zijn cherry-geplukt.
Het helpt je gewoon te begrijpen hoe zeldzaam de resultaten zijn.
maar – en dit is een lastig, lastig punt-het is niet hoe zeldzaam de resultaten van uw experiment zijn. Het is hoe zeldzaam de resultaten zouden zijn in de wereld waar de nulhypothese waar is. Dat wil zeggen, het is hoe zeldzaam de resultaten zouden zijn als niets in uw experiment werkte en het verschil in gewicht was te wijten aan willekeurige toeval alleen.,
Hier is waar de p-waarde komt in: de p-waarde kwantificeert deze zeldzaamheid. Het vertelt je hoe vaak je de numerieke resultaten van een experiment zou zien — of zelfs extremere resultaten-als de nulhypothese waar is en er geen verschil is tussen de groepen.
als de p-waarde erg klein is, betekent dit dat de getallen zelden (maar nooit!) optreden bij toeval alleen. Dus als de p klein is, beginnen onderzoekers te denken dat de nulhypothese onwaarschijnlijk lijkt. En ze nemen een sprong om te concluderen” hun gegevens zijn vrij onwaarschijnlijk te wijten aan willekeurige toeval, ” Nuzzo legt uit.,
Hier is nog een lastig punt: onderzoekers kunnen de null nooit volledig uitsluiten (net zoals juryleden niet uit de eerste hand getuigen zijn van een misdaad). Dus wetenschappers kiezen in plaats daarvan een drempel waar ze vrij zeker van zijn dat ze de nul kunnen afwijzen. Voor veel disciplines staat dat nu op minder dan .05.
idealiter een p van .05 betekent dat als je het experiment 100 keer hebt uitgevoerd-nogmaals, ervan uitgaande dat de nulhypothese waar is-je deze zelfde getallen (of meer extreme resultaten) vijf keer zou zien.,
en een laatste, Super-doornige concept dat bijna iedereen verkeerd: een p<.05 betekent niet dat er minder dan 5 procent kans is dat je experimentele resultaten te wijten zijn aan willekeurige kans. Het betekent niet dat er maar 5 procent kans is dat je op een vals positief bent geland. Nope. Geenszins.
nogmaals: een p-waarde van minder dan .05 betekent dat er minder dan 5 procent kans op het zien van deze resultaten (of meer extreme resultaten), in de wereld waar de nulhypothese waar is. Dit klinkt prikkelbaar, maar het is kritiek., Het is het misverstand dat ertoe leidt dat mensen te veel vertrouwen hebben in p-waarden. Het fout-positieve percentage voor experimenten bij p=.05 kan veel hoger zijn dan 5 procent.
laten we het herhalen: P-waarden vertellen je niet noodzakelijkerwijs of een experiment “werkte” of niet
Psychologie promovendus Kristoffer Magnusson heeft een vrij coole interactieve rekenmachine ontworpen die de kans schat op het verkrijgen van een bereik van p-waarden voor een bepaald waar verschil tussen groepen. Ik gebruikte het om het volgende scenario te maken.,
laten we zeggen dat er een studie is waarbij het werkelijke verschil tussen twee groepen gelijk is aan een halve standaarddeviatie. (Ja, Dit is een nerdy manier om het te zeggen. Maar zie het als volgt: 69 procent van de experimentele groep laat hogere resultaten zien dan het gemiddelde van de controlegroep. Onderzoekers noemen dit een” middelgroot ” effect. En laten we zeggen dat er 50 mensen elk in de experimentele groep en de controlegroep.
In dit scenario kunt u alleen een p-waarde verkrijgen tussen .03 en .05 ongeveer 7,62 procent van de tijd.,
als je dit experiment keer op keer zou uitvoeren, zou je eigenlijk veel meer p-waarden verwachten met een veel lager getal. Dat is wat de volgende grafiek laat zien. De x-as is de specifieke p-waarden, en de y-as is de frequentie die je zou vinden dat ze dit experiment herhalen. Kijk hoeveel p-waarden je hieronder zou vinden .001.
Dit is de reden waarom veel wetenschappers op hun hoede zijn als ze te veel resultaten zien cluster rond .05. Het zou niet moeten gebeuren dat vaak en roept rode vlaggen dat de resultaten zijn cherry-geplukt, of, in science-speak, ” p-gehackt.,”In de wetenschap kan het veel te gemakkelijk zijn om statistieken te spelen en te tweaken om Betekenis te bereiken.
en uit deze grafiek ziet u: Ja, u kunt een p-waarde van groter dan verkrijgen .05 wanneer een experimentele hypothese waar is. Het zou niet zo vaak moeten gebeuren. In dit geval moet ongeveer 9,84 procent van alle p-waarden tussen vallen .05 en .1.
er zijn betere, meer genuanceerde benaderingen voor het evalueren van wetenschap
veel wetenschappers erkennen dat er robuustere manieren zijn om een wetenschappelijke bevinding te evalueren. En ze zijn er al mee bezig., Maar op de een of andere manier hebben ze momenteel niet zo veel macht als “statistische significantie.”Ze zijn:
- geconcentreerd op effectgroottes (hoe groot van een verschil maakt een interventie, en is het praktisch zinvol?)
- betrouwbaarheidsintervallen (Wat is het bereik van twijfel ingebouwd in een gegeven antwoord?,)
- of een resultaat een nieuwe studie of een replicatie is (leg wat meer gewicht in een theorie waar veel labs naar hebben gekeken)
- of het ontwerp van een studie vooraf werd geregistreerd (zodat auteurs hun resultaten na de test niet kunnen manipuleren), en dat de onderliggende gegevens vrij toegankelijk zijn (zodat iedereen de wiskunde kan controleren)
- Er zijn ook alternatieve statistische technieken-zoals Bayesiaanse analyse — die in sommige opzichten directer de resultaten van een studie evalueren. (P-waarden stel de vraag ” hoe zeldzaam zijn mijn resultaten?,”Bayes factors stel de vraag” Wat is de waarschijnlijkheid mijn hypothese is de beste verklaring voor de resultaten die we vonden?”Beide benaderingen hebben trade-offs. )
het echte probleem is niet met statistische significantie; het is met de cultuur van de wetenschap
De auteurs van Het Laatste Natuurcommentaar vragen niet om het einde van p-waarden. Ze willen nog steeds dat wetenschappers ze rapporteren waar dat van toepassing is, maar niet per se het label “significant” of niet.
er is waarschijnlijk discussie over deze strategie., Sommigen denken misschien dat het nuttig is om eenvoudige vuistregels te hebben, of drempels, om de wetenschap te evalueren. En we moeten nog steeds zinnen in onze taal hebben om wetenschappelijke resultaten te beschrijven. Het wissen van “statistische significantie” kan dingen verwarren.
in elk geval wordt het werkelijke probleem niet aangepakt door de definitie van statistische significantie te wijzigen of volledig te nixeren. Het echte probleem is de cultuur van de wetenschap.
in 2016 stuurde Vox een enquête naar meer dan 200 wetenschappers met de vraag: “als je één ding kon veranderen over hoe wetenschap vandaag de dag werkt, wat zou het dan zijn en waarom?,”Een van de duidelijke thema’ s in de reacties: de instellingen van de wetenschap moeten beter worden in het belonen van falen.een jonge wetenschapper vertelde ons: “ik voel me verscheurd tussen het stellen van vragen waarvan ik weet dat die tot statistische significantie zullen leiden en het stellen van vragen die ertoe doen.”
het grootste probleem in de wetenschap is niet statistische significantie; het is de cultuur. Ze voelde zich verscheurd omdat jonge wetenschappers publicaties nodig hebben om een baan te krijgen. Onder de status quo, om publicaties te krijgen, heb je statistisch significante resultaten nodig. Statistische significantie alleen leidde niet tot de replicatiecrisis., De instellingen van de wetenschap stimuleren het gedrag dat het mogelijk maakte om te etteren.
Support VOX ‘ s verklarende journalistiek
elke dag bij Vox, streven we ernaar om uw belangrijkste vragen te beantwoorden en u, en ons publiek over de hele wereld, te voorzien van informatie die u kracht geeft door middel van begrip. Vox ‘ s werk bereikt meer mensen dan ooit, maar ons onderscheidende merk van verklarende journalistiek vergt middelen. Uw financiële bijdrage vormt geen donatie, maar het stelt ons personeel in staat om gratis artikelen, video ‘ s en podcasts te blijven aanbieden aan iedereen die ze nodig heeft., Overweeg het maken van een bijdrage aan Vox vandaag, van zo weinig als $3.