alt For lang tid, mange forskere er’ karriere har været bygget op omkring udøvelse af en enkelt statistik: p<.05.
i mange videnskabelige discipliner er det tærsklen, ud over hvilken undersøgelsesresultater kan erklæres “statistisk signifikante”, hvilket ofte fortolkes til at betyde, at det er usandsynligt, at resultaterne var et lykketræf, et resultat af tilfældig chance.
selvom dette ikke er, hvad det faktisk betyder i praksis., “Statistisk signifikans” bliver alt for ofte misforstået — og misbrugt. Derfor kalder en trio af forskere, der skriver i naturen i denne uge, ” for hele begrebet statistisk betydning at blive forladt.”
deres største argument: “statistisk signifikant” eller “ikke statistisk signifikant” er for ofte let fortolket til at betyde enten “undersøgelsen fungerede” eller “undersøgelsen virkede ikke.”En” sand ” effekt kan undertiden give en p-værdi på større end .05. Og vi ved fra de seneste år, at videnskaben er fyldt med falsk-positive undersøgelser, der opnåede værdier på mindre end .,05 (læs min forklarer om replikationskrisen i samfundsvidenskab for mere).
naturkommentarforfatterne hævder, at matematikken ikke er problemet. I stedet er det menneskelig psykologi. Bucketing resulterer i “statistisk signifikant” og “statistisk ikke-signifikant,” skriver de, fører til en for sort-hvid tilgang til at undersøge videnskaben.
mere end 800 Andre forskere og statistikere over hele verden har underskrevet dette manifest. For nu virker det mere som et provokerende argument end starten på en reel havændring., “Naturen,” for en, “søger ikke at ændre, hvordan den betragter statistisk analyse i evalueringen af papirer på dette tidspunkt,” bemærkede tidsskriftet.
men tidevandet kan være stigende mod “statistisk signifikans.”Dette er ikke første gang forskere og statistikere har udfordret status .uo. I 2016 skrev jeg om, hvordan en stor gruppe af dem opfordrede til at hæve tærsklen til .005, hvilket gør det meget sværere at kalde et resultat “statistisk signifikant.,”(Sideløbende med Nature commentary viet tidsskriftet The American Statistician et helt emne til problemet med ” statistisk betydning.”) Der er en bred anerkendelse af, at p-værdier kan være problematiske.
Jeg formoder, at dette forslag vil blive diskuteret stærkt (ligesom alt inden for videnskab). I det mindste fremhæver denne seneste opfordring til radikale ændringer en vigtig kendsgerning, der plager videnskaben: statistisk betydning er bredt misforstået. Lad mig følge dig igennem det., Jeg tror, det vil hjælpe dig med at forstå denne debat bedre og hjælpe dig med at se, at der er meget flere måder at bedømme fordelene ved et videnskabeligt fund end p-værdier.
Vent, hvad er en p-værdi? Hvad er statistisk betydning?
selv de enkleste definitioner af p-værdier har en tendens til at blive komplicerede, så bær med mig, når jeg bryder det ned.
Når forskere beregner en p-værdi, sætter de på prøve, hvad der er kendt som nulhypotesen., Første ting at vide: dette er ikke en test af det spørgsmål, som eksperimentatoren mest desperat ønsker at svare på.lad os sige, at eksperimentatoren virkelig ønsker at vide, om at spise en bar chokolade om dagen fører til vægttab. For at teste det tildeler de 50 deltagere at spise en bar chokolade om dagen. En anden 50 er befalet at afholde sig fra de lækre ting. Begge grupper vejes før eksperimentet og derefter efter, og deres gennemsnitlige vægtændring sammenlignes.
nulhypotesen er Djævelens advokatargument., Det hedder der er ingen forskel i vægttab af chokolade spisere versus chokolade abstainers.
afvisning af nul er en stor hindring, som forskere er nødt til at rydde for at bevise deres hypotese. Hvis null står, betyder det, at de ikke har elimineret en større alternativ forklaring på deres resultater. Og hvad er videnskab, hvis ikke en proces med at indsnævre forklaringer?
så hvordan udelukker de null? De beregner nogle statistikker.,forskeren spørger dybest set: hvor latterligt ville det være at tro, at nulhypotesen er det sande svar i betragtning af de resultater, vi ser?afvisning af null er lidt som” uskyldig indtil bevist skyldig ” – princippet i retssager, forklarede Regina nu..o, en matematikprofessor ved Gallaudet University. I retten starter du med antagelsen om, at sagsøgte er uskyldig. Så begynder du at se på beviserne: den blodige kniv med sine fingeraftryk på den, hans voldshistorie, øjenvidneberetninger., Som beviset monteres, begynder denne formodning om uskyld at se naiv ud. På et bestemt tidspunkt får jurymedlemmer følelsen, ud over en rimelig tvivl, at tiltalte ikke er uskyldig.
Null-hypotese, afprøvning, følger samme logik: Hvis der er stor og ensartet vægt forskelle mellem chokolade spisere og chokolade abstainers, nulhypotesen — at der ikke er nogen vægt forskelle — begynder at se dum ud, og du kan afvise det.
du tænker måske: er det ikke en smuk rundkørsel måde at bevise, at et eksperiment fungerede?
du har ret!,
afvisning af nulhypotesen er indirekte bevis for en eksperimentel hypotese. Det siger intet om, hvorvidt din videnskabelige konklusion er korrekt.
sikker på, at chokoladespiserne kan tabe en vis vægt. Men er det på grund af chokoladen? Måske. Eller måske følte de sig ekstra skyldige at spise slik hver dag, og de vidste, at de ville blive vejet af fremmede iført laboratoriefrakker (underligt!), så de skimped på andre måltider.
afvisning af null fortæller dig ikke noget om den mekanisme, hvormed chokolade forårsager vægttab., Det fortæller dig ikke, om eksperimentet er godt designet eller godt kontrolleret for, eller om resultaterne er kirsebærplukket.
det hjælper dig bare med at forstå, hvor sjældne resultaterne er.
Men — og dette er et vanskeligt, vanskeligt punkt — det er ikke så sjældent resultaterne af dit eksperiment er. Det er hvor sjældent resultaterne ville være i verden, hvor nullhypotesen er sand. Det vil sige, det er hvor sjældent resultaterne ville være, hvis intet i dit eksperiment fungerede, og forskellen i vægt skyldtes tilfældig chance alene.,
Her er hvor p-værdien kommer ind: p-værdien kvantificerer denne sjældenhed. Det fortæller dig, hvor ofte du vil se de numeriske resultater af et eksperiment — eller endnu mere ekstreme resultater — hvis nulhypotesen er sand, og der ikke er nogen forskel mellem grupperne.
Hvis p-værdien er meget lille, betyder det, at tallene sjældent vil (men ikke aldrig!) forekommer tilfældigt alene. Så når p er lille, begynder forskere at tro, at nullhypotesen ser usandsynlig ud. Og de tager et spring for at konkludere, at” deres data er temmelig usandsynligt, at de skyldes tilfældig chance, ” forklarer nu..o.,
Her er et andet vanskeligt punkt: forskere kan aldrig helt udelukke null (ligesom jurymedlemmer ikke er førstehånds vidner til en forbrydelse). Så forskere vælger i stedet en tærskel, hvor de føler sig ret sikre på, at de kan afvise null. For mange discipliner, der er nu sat til mindre end .05.
ideelt set en p af .05 betyder, at hvis du kørte eksperimentet 100 gange — igen, forudsat at nullhypotesen er sand — ville du se de samme tal (eller mere ekstreme resultater) fem gange.,
og et sidste, supertornet koncept, som næsten alle får forkert: en p<.05 betyder ikke, at der er mindre end en 5 procent chance dine eksperimentelle resultater skyldes tilfældig chance. Det betyder ikke, at der kun er en 5 procent chance for, at du er landet på en falsk positiv. Nej. Overhovedet.
igen: en p-værdi på mindre end .05 betyder, at der er mindre end en 5 procent chance for at se disse resultater (eller mere ekstreme resultater) i den verden, hvor nulhypotesen er sand. Dette lyder nitpicky, men det er kritisk., Det er misforståelsen, der får folk til at være unødigt sikre på p-værdier. Den falsk-positive sats for forsøg ved p=.05 kan være meget højere end 5 procent.
Lad os gentage den: P-værdier ikke nødvendigvis fortælle dig, hvis et eksperiment “arbejdet” eller ikke
Psykologi, Ph.d. – studerende Kristoffer Magnusson har designet en temmelig cool interaktive regnemaskine, der vurderer sandsynligheden for at opnå en række af p-værdier for en given sande forskel mellem grupper. Jeg brugte det til at oprette følgende scenario.,
lad os sige, at der er en undersøgelse, hvor den faktiske forskel mellem to grupper er lig med en halv standardafvigelse. (Ja, det er en nørdet måde at sætte det på. Men tænk på det sådan: det betyder, at 69 procent af dem i den eksperimentelle gruppe viser resultater højere end gennemsnittet af kontrolgruppen. Forskere kalder dette en” mellemstor ” effekt.) Og lad os sige, at der er 50 personer hver i den eksperimentelle gruppe og kontrolgruppen.
i dette scenario bør du kun kunne opnå en p-værdi mellem .03 og .05 omkring 7.62 procent af tiden.,
Hvis du kørte dette eksperiment igen og igen og igen, ville du faktisk forvente at se meget flere p-værdier med et meget lavere tal. Det er, hvad følgende diagram viser. X-aksen er de specifikke p-værdier, og y-aksen er den frekvens, du ville finde dem gentage dette eksperiment. Se hvor mange p-værdier du finder nedenfor .001.dette er grunden til, at mange forskere bliver forsigtige, når de ser for mange resultater klynge rundt .05. Det bør ikke ske, at ofte og rejser røde flag, at resultaterne er blevet cherry-plukket, eller, i videnskab-tale, “p-hacket.,”Inden for videnskab kan det være alt for let at spille og finjustere statistikker for at opnå betydning.
og fra dette diagram, vil du se: Ja, du kan få en p-værdi på større end .05 når en eksperimentel hypotese er sand. Det skulle bare ikke ske så ofte. I dette tilfælde skulle omkring 9, 84 procent af alle p-værdier falde imellem .05 og .1.
der er bedre, mere nuancerede tilgange til evaluering af videnskab
mange forskere erkender, at der er mere robuste måder at evaluere et videnskabeligt fund på. Og de engagerer sig allerede i dem., Men de, på en eller anden måde, har i øjeblikket ikke så meget magt som “statistisk betydning.”De er:
- koncentrerer sig om effektstørrelser (hvor stor forskel gør en intervention, og er den praktisk talt meningsfuld?)
- konfidensintervaller (hvad er tvivlsområdet indbygget i et givet svar?,)
- , Om et resultat er ny undersøgelse eller en gentagelse (sætte nogle mere vægt i en teori mange labs har set)
- Om undersøgelsens design var præregistreret (så, at forfattere ikke kan manipulere deres resultater af post-test), og at de underliggende data er frit tilgængelige (så alle kan kontrollere, matematik)
- Der er også alternative statistiske teknikker — som Bayesiansk analyse — der på nogle måder mere direkte vurdering af en undersøgelses resultater. (P-værdier stil spørgsmålet ” hvor sjældne er mine resultater?,”Bayes faktorer stiller spørgsmålet” Hvad er sandsynligheden for, at min hypotese er den bedste forklaring på de resultater, vi fandt?”Begge tilgange har afvejninger. )
det virkelige problem er ikke med statistisk betydning; det er med videnskabskulturen
forfatterne af den seneste naturkommentar kræver ikke slutningen af p-værdier. De vil stadig gerne have forskere til at rapportere dem, hvor det er relevant, men ikke nødvendigvis mærke dem “betydelige” eller ej.
Der er sandsynligvis argument omkring denne strategi., Nogle synes måske, at det er nyttigt at have enkle tommelfingerregler eller tærskler for at evaluere videnskaben. Og vi skal stadig have sætninger på vores sprog for at beskrive videnskabelige resultater. Sletning af “statistisk betydning” kan bare forvirre tingene.under alle omstændigheder ændrer definitionen af statistisk betydning eller ni .ing det helt ikke det virkelige problem. Og det virkelige problem er videnskabens kultur.
i 2016 sendte Vo?en undersøgelse til mere end 200 forskere, der spurgte: “hvis du kunne ændre en ting om, hvordan videnskaben fungerer i dag, hvad ville det være, og hvorfor?,”Et af de klare temaer i svarene: videnskabsinstitutionerne er nødt til at blive bedre til at belønne fiasko.en ung videnskabsmand fortalte os: “Jeg føler mig splittet mellem at stille spørgsmål, som jeg ved, vil føre til statistisk betydning og stille spørgsmål, der betyder noget.”
det største problem inden for videnskab er ikke statistisk betydning; det er kulturen. Hun følte sig revet, fordi unge forskere har brug for publikationer for at få job. Under status .uo har du brug for statistisk signifikante resultater for at få publikationer. Statistisk signifikans alene førte ikke til replikationskrisen., Videnskabsinstitutionerne incitamenterede den adfærd, der gjorde det muligt at feste.
Support Vox forklarende journalistik
Hver dag på Vox, vi tilstræber at besvare dine spørgsmål og give dig, og vores publikum rundt om i verden, med oplysninger, der sætter dig i stand gennem forståelse. Vo .s arbejde når ud til flere mennesker end nogensinde, men vores karakteristiske mærke af forklarende journalistik tager ressourcer. Dit finansielle bidrag vil ikke udgøre en donation, men det vil gøre det muligt for vores medarbejdere at fortsætte med at tilbyde gratis artikler, videoer og podcasts til alle, der har brug for dem., Overvej venligst at yde et bidrag til Vo.i dag, fra så lidt som $3.