For lenge, har mange forskere’ karriere har det blitt bygd rundt jakten på en enkel statistikk: p<.05.
I mange vitenskapelige disipliner, som er terskelen utover som studerer resultatene kan bli erklært «statistisk signifikant», som er ofte tolket til å bety at det er usannsynlig at resultatene var en fluke, et resultat av tilfeldige.
selv Om dette ikke er hva det egentlig betyr i praksis., «Statistisk signifikans» er altfor ofte misforstått og misbrukt. Det er derfor en trio av forskere skriver i Naturen denne uken ringer «for hele begrepet statistisk signifikans for å bli forlatt.»
Deres største argumentet: «Statistisk signifikante» eller «ikke statistisk signifikant» er også ofte lett feiltolkes til å bety enten «studiet jobbet» eller «studien fungerte ikke.»»Sann» effekten kan noen ganger gi en p-verdi som er større enn .05. Og vi vet at fra de senere år på at vitenskapen er full av falske positive studier som oppnådde verdier på mindre enn .,05 (les min explainer på replikering krisen i samfunnsvitenskap for mer).
Arten kommentarer forfatterne hevder at matematikk er ikke problemet. I stedet, det er menneskelig psykologi. Bucketing resultater i «statistisk signifikante» og «statistisk ikke-signifikant,» skriver de, fører til en for svart-og-hvit tilnærming til saumfarer vitenskap.
Mer enn 800 andre forskere og statistikere over hele verden har underskrevet på dette manifestet. For nå, det virker mer som en provoserende argument enn starten på en ekte sea change., «Natur» for en, «søker ikke å endre hvordan den vurderer statistisk analyse i evaluering av artikler på dette tidspunktet,» journal bemerket.
Men tidevannet kan være stigende mot «statistisk signifikans.»Dette er ikke første gang forskere og statistikere har utfordret status quo. I 2016, skrev jeg om hvordan en stor gruppe av dem som kalles for å heve terskelen til .005, noe som gjør det mye vanskeligere å ringe et resultat av «statistisk signifikante.,»(Samtidig, med Naturen kommentarer, journal Den Amerikanske Statistikeren viet en hel problem til problem av «statistisk signifikans.»Det er en stor anerkjennelse at p-verdier kan være problematisk.
jeg tror dette forslaget vil bli sterkt debattert (som er alt i science). Minst dette siste samtale for radikale endringen gjelder markere et viktig faktum plager vitenskap: Statistisk signifikans er mye misforstått. La meg lede deg gjennom det., Jeg tror det vil hjelpe deg å forstå denne debatten bedre, og hjelpe deg med å se at det er mange flere måter å bedømme verdien av en vitenskapelig funn enn p-verdier.
Vent, hva er en p-verdi? Hva er statistisk signifikans?
Selv de enkleste definisjonene av p-verdier har en tendens til å bli komplisert, så bære med meg som jeg bryte det ned.
Når forskerne beregne en p-verdi, de er å sette på prøve hva som er kjent som null-hypotesen., Første ting å vite: Dette er ikke en test av spørsmålet eksperimentator mest desperat ønsker å svare på.
La oss si at eksperimentator virkelig ønsker å vite hvis du spiser en sjokolade en dag fører til vekttap. For å teste at de tilordne 50 deltakere til å spise en sjokolade en dag. En annen 50 er befalt til å avstå fra den deilige ting. Begge grupper er veide før eksperimentet og så etter, og deres gjennomsnittlige vekt endringen er i forhold.
nullhypotesen er djevelens advokat argument., Det sier det er ingen forskjell i vekt tap av sjokolade eaters versus sjokolade abstainers.
Avvise null er et stort hinder for at forskere må klare å bevise sin hypotese. Hvis null står, det betyr at de ikke har eliminert en stor alternativ forklaring for sine resultater. Og hva er vitenskap hvis ikke en prosess av innsnevring ned forklaringer?
Så hvordan kan de utelukke null? De beregne noen statistikk.,
forskeren i utgangspunktet spør: Hvor latterlig ville det være å tro at nullhypotesen er sann svar, gitt de resultatene vi ser?
Avvise null er typen som «uskyldig til det motsatte er bevist» – prinsippet i rettssaker, Regina Nuzzo, en matematikk professor ved Galluadet University, forklart. I retten, du begynner med antakelsen om at den tiltalte er uskyldig. Så begynner du å se på bevis: den blodige kniven med sine fingeravtrykk på det, sin historie om vold, øyenvitner., Som bevis mounts, som formodning om uskyld begynner å se naiv. På et visst punkt, jurymedlemmer får følelsen, utover rimelig tvil at tiltalte ikke er uskyldige.
Null-hypotese-testing følger en lignende logikk: Hvis det er stor og konsekvent vekt forskjeller mellom sjokolade eaters og sjokolade abstainers, nullhypotesen at det ikke er noen vekt på forskjeller — begynner å se dum og du kan avvise det.
tenker Du kanskje: Er ikke dette en ganske rundkjøring måte å bevise et eksperiment arbeidet?
Du er riktig!,
Avvise nullhypotesen er indirekte bevis av en eksperimentell hypotese. Det sier ingenting om hvorvidt vitenskapelig konklusjon er riktig.
Sikker på, sjokolade eaters kan miste noen vekt. Men er det på grunn av sjokolade? Muligens. Eller kanskje de følte ekstra skyldig å spise godteri hver dag, og de visste at de skulle bli tynget av fremmede iført lab strøk (merkelig!), så de skimped på andre måltider.
Avvise null ikke fortelle deg noe om den mekanismen som sjokolade fører til vekttap., Det trenger ikke fortelle deg om eksperimentet er godt designet, eller godt kontrollert for, eller dersom resultatene har vært håndplukkede.
Det hjelper bare du forstår hvordan sjeldne resultatene er.
Men — og dette er en vanskelig, vanskelig punkt — det er ikke slik sjeldne resultatene av eksperimentet er. Det er hvordan sjeldne resultatene ville være i verden, der nullhypotesen er sann. Det er, det er hvor sjelden resultatene ville være hvis ingenting i eksperimentet fungerte, og forskjellen i vekt var på grunn av tilfeldig sjanse alene.,
Her er der p-verdien kommer i: p-verdi tallfester dette rareness. Det forteller deg hvor ofte du vil se de numeriske resultatene fra et eksperiment — eller enda mer ekstreme resultater — hvis nullhypotesen er sann, og det er ingen forskjell mellom gruppene.
Hvis p-verdien er svært liten, betyr det at tallene ville sjelden (men ikke aldri!) oppstå ved en tilfeldighet alene. Så når p er liten, forskere begynner å tenke nullhypotesen ser usannsynlig. Og de tar et steg ut til å konkludere med at «deres data er ganske usannsynlig å være på grunn av tilfeldige,» Nuzzo forklarer.,
Her er et annet vanskelig punkt: Forskere kan aldri helt utelukke null (akkurat som jurymedlemmer er ikke førstehånds vitner til en forbrytelse). Så forskere i stedet plukke en terskel der de føler seg ganske trygg på at de kan avvise null. For mange disipliner, som nå er satt til mindre enn .05.
Ideell, en p av .05 betyr at hvis du kjørte eksperimentet 100 ganger — igjen, gitt at nullhypotesen er sann — du vil se disse samme tall (eller mer ekstreme resultater) fem ganger.,
Og den siste, super-vanskelige begrep som nesten alle blir feil: En p<.05 betyr ikke det at det er mindre enn 5% sjanse de eksperimentelle resultatene er på grunn av tilfeldige. Det betyr ikke at det bare er 5 prosent sjanse for at du har landet på en falsk positiv. Nope. Ikke i det hele tatt.
Igjen: En p-verdi på mindre enn .05 betyr at det er mindre enn 5 prosent sjanse for å se disse resultatene (eller mer ekstreme resultater), i verden hvor nullhypotesen er sann. Dette høres pirkete, men det er kritisk., Det er misforståelser som fører folk til urimelig trygg på p-verdier. Den falske positive pris for eksperimenter på p=.05 kan være mye høyere enn 5 prosent.
La oss gjenta det: P-verdier ikke nødvendigvis forteller deg om et eksperiment «jobbet» eller ikke
Psykologi Ph.d. – student Kristoffer Magnusson har designet en ganske kul interaktiv kalkulator som beregner sannsynligheten for å få et utvalg av p-verdier for en gitt virkelige forskjellen mellom grupper. Jeg brukte den til å lage følgende scenario.,
La oss si det er en studie hvor den faktiske forskjellen mellom to grupper er lik et halvt standardavvik. (Ja, dette er en nerdete måte å sette den. Men tenk på det slik: Det betyr at 69 prosent av de som er i den eksperimentelle gruppen viser resultater som er høyere enn gjennomsnittet for kontrollgruppen. Forskere kaller dette en «medium-size» – effekt.) Og la oss si at det er 50 personer hver i den eksperimentelle gruppen og kontrollgruppen.
I dette scenariet, kan du bare skal være i stand til å få en p-verdi mellom .03 og .05 rundt 7.62 prosent av tiden.,
Hvis du kjørte dette eksperimentet over og over og over igjen, du vil faktisk forvente å se mye mer p-verdier med et mye lavere tall. Det er hva det følgende diagrammet viser. X-aksen er bestemt p-verdier, og y-aksen er den frekvensen du vil finne dem gjenta dette eksperimentet. Se hvor mange p-verdier vil du finne nedenfor .001.
Dette er grunnen til at mange forskere blir skeptisk når de ser for mange resultater klynge rundt .05. Det bør ikke skje så ofte, og reiser røde flagg som resultatene har vært håndplukkede, eller, i science-si, «p-hacket.,»I vitenskapen, kan det være altfor lett å spill og justere statistikk for å oppnå betydning.
Og fra denne oversikten, vil du se følgende: Ja, du kan få en p-verdi som er større enn .05 når en eksperimentell hypotesen er sann. Det bare bør ikke skje så ofte. I dette tilfellet, rundt 9.84 prosent av alle p-verdier bør ligge mellom .05 og .1.
Det er bedre, mer nyanserte tilnærminger til evaluering av vitenskap
Mange forskere anerkjenner det er mer robuste metoder for å vurdere en vitenskapelig funn. Og de som allerede deltar i dem., Men de, liksom, for tiden ikke holder så mye makt som «statistisk signifikans.»De er:
- Konsentrere seg om effekten størrelser (hvor stor forskjell gjør en intervensjon gjøre, og er det praktisk talt meningsfylt?)
- konfidensintervaller (hva er omfanget av tvil bygget inn i en gitt svar?,)
- Om et resultat er romanen studie eller en replikasjon (lagt litt mer vekt i en teori som mange laboratorier har sett i)
- Om en studie design ble preregistered (slik at forfattere ikke kan manipulere sine resultater av post-test), og at de underliggende dataene er fritt tilgjengelig (slik at alle kan sjekke matematikk)
- Det finnes også alternative statistiske teknikker — som Bayesiansk analyse — som på noen måter mer direkte evaluere en studie av resultater. (P-verdier spør spørsmålet «hvordan sjelden er mine resultater?,»Bayes faktorer stille spørsmålet «hva er sannsynligheten for min hypotese er den beste forklaring på resultatene har vi funnet?»Begge tilnærminger har trade-offs. )
Det virkelige problemet er ikke med statistisk betydning; det er med kulturen i vitenskap
forfatterne av den siste Arten kommentarer er ikke ringer for slutten av p-verdier. De fortsatt ønsker forskere å rapportere om dem der dette er hensiktsmessig, men ikke nødvendigvis merke dem med «betydelig» eller ikke.
Det er sannsynlig å være argument rundt denne strategien., Noen kanskje tror det er nyttig å ha enkle tommelfingerregler, eller terskler, for å evaluere vitenskap. Og vi må fortsatt være uttrykk i vårt språk for å beskrive vitenskapelige resultater. Sletting av «statistisk signifikans» kan bare forvirre ting.
I alle fall, endre definisjonen av statistisk betydning, eller nixing det helt, ikke-postadressen er det reelle problemet. Og det virkelige problemet er kultur-of science.
I 2016, Vox sendt ut en undersøkelse til mer enn 200 forskere spør, «Hvis du kunne endre én ting om hvordan vitenskapen fungerer i dag, hva ville det være og hvorfor?,»En av de klart temaer i svarene: institusjoner for vitenskap må bli flinkere til å belønne feil.
En ung forsker fortalte oss, «jeg føler at jeg slites mellom å stille spørsmål som jeg vet vil føre til statistisk signifikans, og stiller spørsmål som saken.»
Det største problemet i vitenskapen er ikke statistisk signifikans, det er kultur. Hun følte revet fordi unge forskere må publikasjoner for å få jobber. Under status quo, for å få publikasjoner, trenger du statistisk signifikante resultater. Statistisk signifikans alene ikke føre til replikering krise., Institusjonene of science incentivized atferd som lot det ligge der.
Støtte Vox er forklarende journalistikk
Hver dag i Vox, forsøker vi å svare på viktige spørsmål og gi deg, og vårt publikum rundt om i verden, med informasjon som gjør at du gjennom å forstå. Vox arbeid er å nå flere mennesker enn noen gang, men vår særegen merkevare av forklarende journalistikk tar ressurser. Ditt bidrag vil ikke utgjøre en donasjon, men det vil gjøre det mulig for våre ansatte å fortsette å tilby gratis artikler, videoer og podcaster, til alle som trenger dem., Vennligst vurdere å gi et bidrag til Vox i dag, fra så lite som $3.