för länge har många forskares karriärer byggts kring strävan efter en enda statistik: p<.05.
i många vetenskapliga discipliner är det tröskelvärdet bortom vilket studieresultat kan förklaras ”statistiskt signifikant”, vilket ofta tolkas som att det är osannolikt att resultaten var en fluke, ett resultat av slumpmässig chans.
Även om detta inte är vad det egentligen betyder i praktiken., ”Statistisk signifikans” är alltför ofta missförstådd — och missbrukas. Därför kallar en trio av forskare som skriver i naturen denna vecka ” för att hela begreppet statistisk betydelse ska överges.”
deras största argument:” statistiskt signifikant ”eller” inte statistiskt signifikant ”är alltför ofta lätt att tolka för att betyda antingen” studien fungerade ”eller” studien fungerade inte.”En” sann ” effekt kan ibland ge ett p-värde större än .05. Och vi vet från de senaste åren att vetenskapen är utbredd med falska positiva studier som uppnådde värden på mindre än .,05 (läs min förklarare på replikationskrisen i samhällsvetenskap för mer).
naturkommentarens författare hävdar att matematiken inte är problemet. Istället är det mänsklig psykologi. Bucketing resulterar i ”statistiskt signifikant” och ”statistiskt icke-signifikant”, skriver de, leder till ett för svartvitt tillvägagångssätt för att granska vetenskapen.
mer än 800 andra forskare och statistiker över hela världen har undertecknat detta manifest. För tillfället verkar det mer som ett provocerande argument än början på en verklig havsförändring., ”Nature”, för en, ”försöker inte ändra hur den anser statistisk analys vid utvärdering av papper vid denna tidpunkt”, noterade tidskriften.
men tidvattnet kan stiga mot ” statistisk signifikans.”Detta är inte första gången forskare och statistiker har utmanat status quo. I 2016 skrev jag om hur en stor grupp av dem krävde att höja tröskeln till .005, vilket gör det mycket svårare att kalla ett resultat ” statistiskt signifikant.,”(Samtidigt med Naturkommentaren ägnade tidskriften Den amerikanska statistiker en hel fråga till problemet med ” statistisk betydelse.”) Det finns ett brett erkännande att p-värden kan vara problematiska.
Jag misstänker att detta förslag kommer att diskuteras kraftigt (som är allt inom vetenskapen). Åtminstone denna senaste uppmaning till radikal förändring belyser ett viktigt faktum som plågar vetenskapen: statistisk betydelse är allmänt missförstådd. Låt mig gå igenom det., Jag tror att det kommer att hjälpa dig att förstå denna debatt bättre, och hjälpa dig att se att det finns många fler sätt att bedöma fördelarna med ett vetenskapligt konstaterande än p-värden.
vänta, Vad är ett p-värde? Vad är statistisk betydelse?
även de enklaste definitionerna av p-värden tenderar att bli komplicerade, så bär med mig när jag bryter ner det.
När forskare beräknar ett p-värde, sätter de på testet vad som kallas nollhypotesen., Första sak att veta: det här är inte ett test av frågan som experimenten mest desperat vill svara på.
låt oss säga att experimenten verkligen vill veta om att äta en chokladkaka om dagen leder till viktminskning. För att testa det tilldelar de 50 deltagare att äta en chokladkaka om dagen. Ytterligare 50 är befallda att avstå från de läckra sakerna. Båda grupperna vägs före experimentet och sedan efter, och deras genomsnittliga viktförändring jämförs.
nollhypotesen är djävulens förespråkare argument., Det står att det inte finns någon skillnad i viktminskning av choklad ätare kontra choklad abstainers.
att avvisa null är ett stort hinder som forskare behöver rensa för att bevisa sin hypotes. Om null står betyder det att de inte har eliminerat en viktig alternativ förklaring till deras resultat. Och vad är vetenskap om inte en process för att minska förklaringar?
Så hur utesluter de null? De beräknar viss statistik.,
forskaren frågar i princip: hur löjligt skulle det vara att tro att nollhypotesen är det sanna svaret, med tanke på de resultat vi ser?
att avvisa null är ungefär som principen ”oskyldig tills bevisad skyldig” i domstolsmål, Regina Nuzzo, en matematikprofessor vid Gallaudet University, förklarade. I rätten börjar du med antagandet att svaranden är oskyldig. Sedan börjar du titta på bevisen: den blodiga kniven med hans fingeravtryck på den, hans våldshistoria, ögonvittneskonton., Som bevisen monterar, börjar den oskuldspresumtionen att se naiv ut. Vid en viss tidpunkt får jurymedlemmarna känslan, bortom rimligt tvivel, att svaranden inte är oskyldig.
nollhypotesprovning följer en liknande logik: om det finns stora och konsekventa viktskillnader mellan chokladätarna och chokladavhållarna börjar nollhypotesen — att det inte finns några viktskillnader — se dumt ut och du kan avvisa det.
du kanske tänker: är inte det här ett ganska rondell för att bevisa att ett experiment fungerade?
Du har rätt!,
att avvisa nollhypotesen är indirekt bevis på en experimentell hypotes. Det står ingenting om huruvida din vetenskapliga slutsats är korrekt.
visst, chokladätarna kan förlora lite vikt. Men är det på grund av chokladen? Kanske. Eller kanske kände de sig extra skyldiga att äta godis varje dag, och de visste att de skulle vägas av främlingar som bär labbrockar(konstigt!), så de snålade på andra måltider.
att avvisa null berättar inte någonting om mekanismen genom vilken choklad orsakar viktminskning., Det berättar inte om experimentet är väl utformat, eller väl kontrollerat för, eller om resultaten har blivit körsbärplockade.
det hjälper dig bara att förstå hur sällsynta resultaten är.
men — och det här är en knepig, knepig punkt — det är inte så sällsynt resultatet av experimentet är. Det är hur sällsynt resultaten skulle vara i världen där nollhypotesen är sann. Det är, det är hur sällsynt resultaten skulle vara om ingenting i ditt experiment fungerade och skillnaden i vikt berodde på slumpmässig chans ensam.,
här är där p-värdet kommer in: p-värdet kvantifierar denna rareness. Det berättar hur ofta du skulle se de numeriska resultaten av ett experiment — eller ännu mer extrema resultat-om nollhypotesen är sann och det finns ingen skillnad mellan grupperna.
om p-värdet är mycket liten betyder det att siffrorna sällan skulle (men inte aldrig!) förekommer av en slump ensam. Så när p är liten börjar forskare tro att nollhypotesen ser osannolikt ut. Och de tar ett steg för att dra slutsatsen ”deras data är ganska osannolikt att bero på slumpmässig chans”, förklarar Nuzzo.,
Här är en annan knepig punkt: forskare kan aldrig helt utesluta null (precis som jurymedlemmar inte är förstahandsvittnen till ett brott). Så forskare väljer istället en tröskel där de känner sig ganska övertygade om att de kan avvisa null. För många discipliner, som nu är inställd på mindre än .05.
helst, en p av .05 betyder att om du körde experimentet 100 gånger-igen, förutsatt att nollhypotesen är sann-skulle du se samma siffror (eller mer extrema resultat) fem gånger.,
och ett sista, Super-taggigt koncept som nästan alla får fel: A p<.05 betyder inte att det finns mindre än en 5 procent chans dina experimentella resultat beror på slumpmässig chans. Det betyder inte att det bara finns en 5 procent chans att du har landat på en falsk positiv. Nepp. Alls.
igen: ett p-värde på mindre än .05 innebär att det finns mindre än en 5 procent chans att se dessa resultat (eller mer extrema resultat), i världen där nollhypotesen är sann. Det här låter nitpicky, men det är kritiskt., Det är missförståndet som leder till att människor är otillbörligt övertygade om p-värden. Den falskt positiva hastigheten för experiment vid p=.05 kan vara mycket högre än 5 procent.
låt oss upprepa det: p-värden inte nödvändigtvis berätta om ett experiment ”fungerade” eller inte
Psykologi doktorand Kristoffer Magnusson har utformat en ganska cool interaktiv kalkylator som uppskattar sannolikheten för att få en rad p-värden för en given sann skillnad mellan grupper. Jag använde den för att skapa följande scenario.,
låt oss säga att det finns en studie där den faktiska skillnaden mellan två grupper är lika med en halv standardavvikelse. (Ja, det här är ett nördigt sätt att uttrycka det. Men tänk på det så här: det betyder 69 procent av dem i den experimentella gruppen visar resultat högre än kontrollgruppens medelvärde. Forskare kallar detta en” medelstor ” effekt.) Och låt oss säga att det finns 50 personer vardera i den experimentella gruppen och kontrollgruppen.
i det här scenariot ska du bara kunna få ett p-värde mellan .03 .05 runt 7,62 procent av tiden.,
om du körde experimentet om och om igen, skulle du faktiskt förvänta dig att se mycket mer p-värden med ett mycket lägre antal. Det är vad följande diagram visar. X-axeln är de specifika p-värdena, och Y-axeln är den frekvens du skulle hitta dem upprepa detta experiment. Titta hur många p-värden du hittar nedan .001.
det är därför många forskare blir försiktiga när de ser för många resultat kluster runt .05. Det borde inte hända så ofta och höjer röda flaggor att resultaten har blivit körsbärsplockade eller, i vetenskap-tala, ” p-hackat.,”I vetenskapen kan det vara alldeles för lätt att spela och tweak statistik för att uppnå betydelse.
och från det här diagrammet ser du: Ja, du kan få ett p-värde som är större än .05 när en experimentell hypotes är sann. Det borde inte hända så ofta. I detta fall bör cirka 9,84 procent av alla p-värden falla mellan .05 .1.
det finns bättre, mer nyanserade metoder för att utvärdera vetenskapen
många forskare inser att det finns mer robusta sätt att utvärdera ett vetenskapligt resultat. Och de engagerar sig redan i dem., Men de, på något sätt, håller för närvarande inte så mycket makt som ” statistisk betydelse.”De är:
- koncentrerar sig på effektstorlekar (hur stor skillnad gör ett ingripande, och är det praktiskt taget meningsfullt?)
- konfidensintervall (vad är intervallet av tvivel inbyggd i ett givet svar?,)
- Om ett resultat är en ny studie eller en replikering (lägg lite mer vikt i en teori som många laboratorier har tittat på)
- Om en studies design var preregisterad (så att författarna inte kan manipulera sina resultat efter test) och att de underliggande uppgifterna är fritt tillgängliga (så att alla kan kontrollera matematiken)
- Det finns också alternativa statistiska tekniker-som Bayesiansk analys — som på vissa sätt mer direkt utvärderar en studies resultat. (P-värden ställer frågan ” hur sällsynta är mina resultat?,”Bayes faktorer ställer frågan” Vad är sannolikheten min hypotes är den bästa förklaringen till de resultat vi hittade?”Båda tillvägagångssätten har kompromisser. )
det verkliga problemet är inte med statistisk betydelse; det är med vetenskapskulturen
författarna till den senaste Naturkommentaren kräver inte slutet på p-värden. De skulle fortfarande vilja att forskare rapporterar dem där det är lämpligt, men inte nödvändigtvis märka dem ”signifikanta” eller inte.
det kommer sannolikt att finnas argument kring denna strategi., Vissa kanske tror att det är användbart att ha enkla tumregler eller trösklar för att utvärdera vetenskapen. Och vi behöver fortfarande ha fraser på vårt språk för att beskriva vetenskapliga resultat. Radera ”statistisk betydelse” kan bara förvirra saker.
i vilket fall som helst, ändra definitionen av statistisk signifikans, eller nixing det helt, inte ta itu med det verkliga problemet. Och det verkliga problemet är vetenskapens kultur.
i 2016 skickade Vox ut en undersökning till mer än 200 forskare och frågade: ”om du kunde ändra en sak om hur vetenskapen fungerar idag, vad skulle det vara och varför?,”Ett av de tydliga teman i svaren: vetenskapsinstitutionerna måste bli bättre på att belöna misslyckande.
en ung forskare berättade för oss, ”Jag känner mig sliten mellan att ställa frågor som jag vet kommer att leda till statistisk betydelse och ställa frågor som är viktiga.”
det största problemet inom vetenskapen är inte statistisk betydelse; det är kulturen. Hon kände sig sliten eftersom unga forskare behöver publikationer för att få jobb. Under status quo, för att få publikationer behöver du statistiskt signifikanta resultat. Enbart statistisk betydelse ledde inte till replikeringskrisen., Vetenskapsinstitutionerna stimulerade de beteenden som gjorde det möjligt att fester.
stöd Vox förklarande journalistik
varje dag på Vox, vi strävar efter att svara på dina viktigaste frågor och ge dig, och vår publik runt om i världen, med information som ger dig genom förståelse. Vox arbete når fler människor än någonsin, men vårt distinkta varumärke av förklarande journalistik tar resurser. Ditt ekonomiska bidrag kommer inte att utgöra en donation, men det kommer att göra det möjligt för vår personal att fortsätta att erbjuda gratis artiklar, videor och podcasts till alla som behöver dem., Vänligen överväga att göra ett bidrag till Vox idag, från så lite som $3.