post hoc-tester är en integrerad del av ANOVA. När du använder ANOVA för att testa jämlikheten hos minst tre gruppmedel indikerar statistiskt signifikanta resultat att inte alla gruppmedel är lika. ANOVA-resultaten identifierar emellertid inte vilka särskilda skillnader mellan par av medel som är signifikanta. Använd post hoc-tester för att utforska skillnader mellan flera gruppmedel samtidigt som du kontrollerar den experimentella felfrekvensen.,
i det här inlägget visar jag dig vilka post hoc-analyser som är, de kritiska fördelarna de tillhandahåller och hjälper dig att välja rätt för din studie. Dessutom visar jag varför underlåtenhet att kontrollera den experimentella felfrekvensen kommer att leda till att du har allvarliga tvivel om dina resultat.
börja med Anova Omnibus-testet
vanligtvis, när du vill bestämma om tre eller flera medel är olika, utför du ANOVA. Statistiker hänvisar till ANOVA F-testet som ett omnibus-test. Welch ANOVA är en annan typ av omnibus test.,
ett omnibus-test ger övergripande resultat för dina data. Sammantaget är skillnaderna mellan medlen statistiskt signifikanta—Ja eller Nej?
om p-värdet från ditt ANOVA F-test eller Welchs test är mindre än din signifikansnivå kan du avvisa nollhypotesen.
- Null: alla grupporgan är lika.
- alternativ: inte alla gruppmedel är lika.
ANOVA-testresultaten kartlägger dock inte vilka grupper som skiljer sig från andra grupper., Som du kan se från hypoteserna ovan, om du kan avvisa null, vet du bara att inte alla medel är lika. Ibland behöver du verkligen veta vilka grupper som skiljer sig avsevärt från andra grupper!
: hur F-tester fungerar i ANOVA och Welchs ANOVA
exempel enkelriktad ANOVA att använda med post Hoc-tester
vi börjar med detta enkelriktad ANOVA exempel, och sedan använda den för att illustrera tre post hoc-tester i hela detta blogginlägg. Tänk dig att vi testar fyra material som vi överväger för att göra en produktdel., Vi vill avgöra om de genomsnittliga skillnaderna mellan styrkorna hos dessa fyra material är statistiskt signifikanta. Vi får följande envägsresultat ANOVA. För att följa med detta exempel, ladda ner CSV dataset: PostHocTests.
p-värdet på 0,004 indikerar att vi kan avvisa nollhypotesen och dra slutsatsen att de fyra medlen inte är alla lika. Tabellen medel längst ner visar gruppen medel. Men vi vet inte vilka par av grupper som är väsentligt olika.,
för att jämföra gruppmedel måste vi utföra post hoc-tester, även kända som flera jämförelser. På Latin betyder post hoc ” efter detta.”Du utför post hoc-analyser efter ett statistiskt signifikant omnibustest (F-test eller Welchs).
innan vi kommer till dessa gruppjämförelser måste du lära dig om den experimentella felfrekvensen.
: hur man tolkar p-värden korrekt och hur man gör Envägsanova i Excel
Vad är den experimentella felfrekvensen?
post hoc-tester utför två viktiga uppgifter., Ja, de berättar vilka gruppmedel som skiljer sig väsentligt från andra gruppmedel. Avgörande, de kontrollerar också experimentet-wise, eller familywise, felfrekvens. I detta sammanhang är experimentvisa, familjevisa och familjefelfrekvenser alla synonymer som jag ska använda omväxlande.
vad är den här experimentella felfrekvensen? För varje hypotestest du utför finns det en typ i-felfrekvens, som din signifikansnivå (alfa) definierar. Med andra ord finns det en chans att du kommer att avvisa en nollhypotes som faktiskt är sant—det är en falsk positiv., När du bara utför ett test motsvarar typ i-felfrekvensen din signifikansnivå, vilket ofta är 5%. Men när du utför fler och fler tester ökar din chans till en falsk positiv. Om du utför tillräckligt med tester, är du nästan garanterad att få en falsk positiv! Felfrekvensen för en testfamilj är alltid högre än ett individuellt test.
Tänk dig att du rullar ett par tärningar och rullar två (kallas snake eyes) representerar ett typ i-fel. Sannolikheten för snake eyes för en enda rulle är ~ 2.8% snarare än 5%, men du får idén., Om du rullar tärningarna bara en gång är dina chanser att rulla ormögon inte så dåliga. Men ju fler gånger du rullar tärningarna, desto mer sannolikt får du två. Med 25 rullar blir ormögon mer troliga än inte (50,8%). Med tillräckligt med rullar blir det oundvikligt.
: typer av fel i hypotesprovning och Signifikansnivåer och p-värden
familjefel i ANOVA
i ANOVA-sammanhanget vill du jämföra gruppmedlen. Ju fler grupper du har, desto fler jämförelsetester måste du utföra., För vårt exempel ANOVA med fyra grupper (A B C D) måste vi göra följande sex jämförelser.
- a – b
- a – c
- a – d
- b – c
- b – d
- c – d
vårt experiment omfattar denna familj av sex jämförelser. Varje jämförelse representerar en tärningsrulle för att få en falsk positiv. Vad är felfrekvensen för sex jämförelser? Tyvärr, som du ser härnäst, den experimentella felfrekvensen snöbollar baserat på antalet grupper i experimentet.
den experimentella felfrekvensen blir snabbt problematisk!,
tabellen nedan visar hur ett ökat antal grupper i din studie orsakar att antalet jämförelser ökar, vilket i sin tur ökar den familjevisa felfrekvensen. Lägg märke till hur snabbt mängden jämförelser ökar genom att lägga till några grupper! På motsvarande sätt blir den experimentella felfrekvensen snabbt problematisk.
tabellen börjar med två grupper, och den enda jämförelsen mellan dem har en experimentell felfrekvens som motsvarar signifikansnivån (0,05). Tyvärr ökar den familjevisa felfrekvensen snabbt därifrån!,
formeln för det maximala antalet jämförelser du kan göra för N-grupper är: (N * (N-1))/2. Det totala antalet jämförelser är jämförelsefamiljen för experimentet när man jämför alla möjliga par av grupper (dvs. alla parvisa jämförelser). Dessutom är formeln för beräkning av felfrekvensen för hela uppsättningen jämförelser 1 – (1-α)^C. Alpha din signifikansnivå för en enda jämförelse, och C är lika med antalet jämförelser.,
den experimentella felfrekvensen representerar sannolikheten för ett typ i-fel (falskt positivt) över den totala jämförelsefamiljen. Vårt ANOVA-exempel har fyra grupper, som producerar sex jämförelser och en familjevis felfrekvens på 0,26. Om du ökar grupperna till fem hoppar felfrekvensen till 40%! När du har 15 grupper är du nästan garanterad att ha en falsk positiv (99,5%)!
post Hoc-tester styr den experimentella felfrekvensen
tabellen visar kortfattat det problem som post hoc-tester löser., Vanligtvis, när du utför statistisk analys, förväntar du dig en falsk positiv hastighet på 5%, eller vilket värde du ställer in för signifikansnivån. Som tabellen visar, när du ökar antalet grupper från 2 till 3, tredubblas felfrekvensen nästan från 0,05 till 0,143. Och det förvärras snabbt därifrån!
dessa felfrekvenser är för höga! När du ser en betydande skillnad mellan grupper, skulle du ha allvarliga tvivel om huruvida det var en falsk positiv snarare än en verklig skillnad.,
om du använder 2-prov T-test för att systematiskt jämföra alla gruppmedel i din studie, kommer du att stöta på detta problem. Du skulle ställa in signifikansnivån för varje test (t.ex. 0,05), och sedan kommer antalet jämförelser att bestämma den experimentella felfrekvensen, som visas i tabellen.
lyckligtvis använder post hoc-tester ett annat tillvägagångssätt. För dessa tester ställer du in den experimentella felfrekvens du vill ha för hela uppsättningen jämförelser. Därefter beräknar post hoc-testet signifikansnivån för alla enskilda jämförelser som ger den familywise-felfrekvens du anger.,
förstå hur post hoc-tester fungerar är mycket enklare när du ser dem i aktion. Låt oss komma tillbaka till vårt enkla ANOVA-exempel!
exempel på att använda Tukeys metod med enkelriktad ANOVA
för vårt ANOVA-exempel har vi fyra grupper som kräver sex jämförelser för att täcka alla kombinationer av grupper. Vi kommer att använda ett post hoc-test och ange att familjen av sex jämförelser kollektivt bör producera en familywise felfrekvens på 0.05. Det post hoc-test Jag ska använda är Tukeys metod., Det finns en mängd olika post hoc-tester du kan välja mellan, men Tukeys metod är den vanligaste för att jämföra alla möjliga gruppparningar.
det finns två sätt att presentera post hoc—testresultat-justerade p-värden och samtidiga konfidensintervall. Jag ska visa dem båda nedan.
justerade p-värden
tabellen nedan visar de sex olika jämförelserna i vår studie, skillnaden mellan gruppmedel och det justerade p-värdet för varje jämförelse.,
det justerade p-värdet identifierar de gruppjämförelser som skiljer sig avsevärt samtidigt som familjefelfrekvensen begränsas till din signifikansnivå. Jämför bara de justerade p-värdena till din signifikansnivå. När justerade p-värden är mindre än signifikansnivån är skillnaden mellan dessa gruppmedel statistiskt signifikant. Viktigt är att denna process styr den familjevisa felfrekvensen till din signifikansnivå. Vi kan vara övertygade om att hela denna uppsättning jämförelser kollektivt har en felfrekvens på 0,05.,
i utmatningen ovan är endast d – b-skillnaden statistiskt signifikant vid användning av en familjefelfrekvens på 0,05. Den genomsnittliga skillnaden mellan dessa två grupper är 9,5.
samtidiga konfidensintervall
det andra sättet att presentera post hoc-testresultat är genom att använda samtidiga konfidensintervall för skillnaderna mellan medel. I ett individuellt test överensstämmer hypotesprovresultaten med en signifikansnivå av α Med konfidensintervall med en konfidensnivå på 1-α. Till exempel hypotestester med en signifikansnivå på 0.,05 motsvarar 95% konfidensintervall.
i post hoc-tester använder vi en samtidig konfidensnivå snarare än en individuell konfidensnivå. Den samtidiga konfidensnivån gäller för hela jämförelsefamiljen. Med en 95% samtidig konfidensnivå kan vi vara 95% övertygade om att alla intervall i vår uppsättning jämförelser innehåller de faktiska befolkningsskillnaderna mellan grupper. En 5% experimentvis felfrekvens motsvarar 95% samtidiga konfidensintervall.
Tukey samtidiga CIs för vår enkelriktad Anova exempel
låt oss komma till konfidensintervallen., Medan tabellen ovan visar dessa CIs numeriskt, jag gillar grafen nedan eftersom det möjliggör en enkel visuell bedömning, och det ger mer information än de justerade p-värden.
noll indikerar att gruppmedlen är lika. När ett konfidensintervall inte innehåller noll är skillnaden mellan det paret statistiskt signifikant. I diagrammet är endast skillnaden mellan D – B signifikant. Dessa CI-resultat matchar hypotesprovresultaten i föregående tabell., Jag föredrar dessa CI-resultat eftersom de också ger ytterligare information som de justerade p-värdena inte förmedlar.
dessa konfidensintervall ger värden som sannolikt innehåller den faktiska befolkningsskillnaden mellan par av grupper. Som med alla CIs avslöjar bredden på intervallet för skillnaden precisionen av uppskattningen. Smalare intervall föreslår en mer exakt uppskattning. Och du kan bedöma om hela intervallet av värden är praktiskt taget signifikant., Kom ihåg att statistisk betydelse inte nödvändigtvis indikerar att resultaten är meningsfulla i den verkliga världen.
när intervallet är för brett (otydligt) för att vara till hjälp och/eller intervallet innehåller skillnader som inte är praktiskt signifikanta, har du anledning att tveka innan du fattar beslut baserat på resultaten.
post Hoc-tester och statistisk strömavbrott
post hoc-tester är bra för att kontrollera den familjevisa felfrekvensen. Många texter skulle sluta vid denna tidpunkt. En tradeoff inträffar dock bakom kulisserna., Du måste vara medveten om det eftersom du kanske kan hantera det effektivt. Tradeoff är följande:
post hoc-tester styr den experimentella felfrekvensen genom att minska jämförelsernas statistiska kraft.
Så här fungerar det och vad det betyder för din studie.
för att få den familjefelfrekvens du anger måste post hoc-procedurer Sänka signifikansnivån för alla enskilda jämförelser. Till exempel, för att sluta med en familjefelfrekvens på 5% för en uppsättning jämförelser, använder förfarandet en ännu lägre individuell signifikansnivå.,
eftersom antalet jämförelser ökar måste post hoc-analysen sänka den individuella signifikansnivån ytterligare. För våra sex jämförelser använder Tukeys metod en individuell signifikansnivå på cirka 0.011 för att producera den familjevisa felfrekvensen på 0.05. Om vår ANOVA krävde fler jämförelser, skulle det vara ännu lägre.
vad är problemet med att använda en lägre individuell signifikansnivå? Lägre signifikansnivåer motsvarar lägre statistisk effekt., Om en skillnad mellan gruppmedel faktiskt existerar i befolkningen, är en studie med lägre effekt mindre sannolikt att upptäcka den. Du kan missa viktiga resultat!
att undvika denna effektminskning är därför många studier använder en individuell signifikansnivå på 0,05 snarare än 0,01. Tyvärr, med bara fyra grupper, tvingas vårt exempel post hoc-test att använda den lägre signifikansnivån.
Key Takeaway: ju fler gruppjämförelser du gör, desto lägre är den statistiska kraften i dessa jämförelser.,
relaterat inlägg: förstå statistisk effekt
hantera strömavbrott i post Hoc-tester genom att minska antalet jämförelser
en metod för att mildra denna avvägning är genom att minska antalet jämförelser. Denna minskning gör det möjligt för proceduren att använda en större individuell felfrekvens för att uppnå den familjefelfrekvens som du anger – vilket ökar den statistiska effekten.
i den här artikeln har jag skrivit om att utföra alla parvisa jämförelser—vilket jämför alla möjliga gruppparningar., Även om detta är den vanligaste metoden, antalet kontraster snabbt högar upp! Beroende på studieens syfte kanske du inte behöver jämföra alla möjliga grupper.
din studie kan behöva jämföra endast en delmängd av alla möjliga jämförelser av olika skäl. Jag täcker två vanliga skäl och visar vilka post hoc-tester du kan använda. I följande exempel visar jag bara konfidensintervallgraferna och inte hypotesprovresultaten. Lägg märke till hur dessa andra metoder gör färre jämförelser (3 och 4) för vårt exempel dataset än Tukey Metod (6).,
När du utformar din studie är det viktigt att du i förväg definierar den metod för flera jämförelser som du ska använda. Försök inte olika metoder, och välj sedan den som ger de mest gynnsamma resultaten. Det är data muddring, och det kan leda till falska fynd. Jag använder flera post hoc-tester på en enda datauppsättning för att visa hur de skiljer sig, men det är inte en lämplig övning för en riktig studie. Definiera din metodik i förväg, inklusive en post hoc-analys, innan du analyserar data och håll dig till det!,
Key Takeaway: när det är möjligt, jämföra en delmängd av grupper för att öka din statistiska makt.
exempel på att använda Dunnetts metod för att jämföra behandlingsgrupper med en kontrollgrupp
om din studie har en kontrollgrupp och flera behandlingsgrupper kan du behöva jämföra behandlingsgrupperna endast med kontrollgruppen.
använd Dunnetts metod när följande är sant:
- innan studien vet du vilken grupp (kontroll) du vill jämföra med alla andra grupper (behandlingar).
- du behöver inte jämföra behandlingsgrupperna med varandra.,
Låt oss använda Dunnetts metod med vårt exempel One-way ANOVA, men vi tweak scenariot något. Antag att vi för närvarande använder material A. Vi utförde detta experiment för att jämföra de alternativa materialen (B, C och D) med den. Material A kommer att vara vår kontrollgrupp, medan de andra tre är behandlingarna.
med Dunnetts metod ser vi att endast b – a-skillnaden är statistiskt signifikant eftersom intervallet inte inkluderar noll. Med hjälp av Tukeys metod var denna jämförelse inte signifikant., Den extra kraft som uppnåddes genom att göra färre jämförelser kom igenom för oss. Å andra sidan, till skillnad från Tukeys metod, finner Dunnetts metod inte att d-B-skillnaden är signifikant eftersom den inte jämför behandlingsgrupperna med varandra.
exempel på att använda Hsu: s MCB för att hitta det starkaste materialet
om Studiens mål är att identifiera den bästa gruppen kanske du inte behöver jämföra alla möjliga grupper. Hsu: s multipla jämförelser med det bästa (MCB) identifierar de grupper som är bäst, obetydligt annorlunda än de bästa och skiljer sig väsentligt från de bästa.,
använd Hsu: s MCB när du:
- vet inte i förväg vilken grupp du vill jämföra med alla andra grupper.
- behöver inte jämföra grupper som inte är bäst för andra grupper som inte är bäst.
- kan definiera ”det bästa” som antingen gruppen med det högsta medelvärdet eller det lägsta medelvärdet.
Hsu: s MCB jämför varje grupp med gruppen med det bästa medelvärdet (högsta eller lägsta). Med den här proceduren kan du sluta med flera grupper som inte skiljer sig väsentligt från den bästa gruppen., Tänk på att den grupp som verkligen är bäst i hela befolkningen kanske inte har det bästa provet betyder på grund av provtagningsfel. De grupper som inte skiljer sig väsentligt från den bästa gruppen kan vara lika bra som, eller ännu bättre än, gruppen med det bästa provet betyder.
samtidiga konfidensintervall för Hsu: s MCB
för vår envägsanova vill vi använda materialet som producerar de starkaste delarna. Följaktligen använder vi Hsu: s MCB och definierar det högsta medelvärdet som det bästa. Vi bryr oss inte om alla andra möjliga jämförelser.,
Grupp D är den bästa gruppen totalt eftersom den har det högsta medelvärdet (41.07). Förfarandet jämförs med alla övriga grupper. För Hsu: s MCB är en grupp betydligt bättre än en annan grupp när konfidensintervallet har noll som en slutpunkt. Från grafen kan vi se att Material D är betydligt bättre än B och C. A-D-jämförelsen innehåller emellertid noll, vilket indikerar att A inte skiljer sig väsentligt från det bästa.
Hsu: s MCB fastställer att kandidaterna till den bästa gruppen är A och D., D har det högsta provet medelvärdet och A skiljer sig inte signifikant från D. å andra sidan utesluter förfarandet effektivt B och C från att vara bäst.
Recap of Using Multiple Comparison Methods
i det här blogginlägget har du sett hur omnibus ANOVA-testet avgör om medel är olika i allmänhet, men det identifierar inte specifika gruppskillnader som är statistiskt signifikanta.
om du får betydande ANOVA-resultat, Använd ett post hoc-test för att undersöka de genomsnittliga skillnaderna mellan par av grupper.,
Du har också lärt dig hur kontroll av den experimentella felfrekvensen är en viktig funktion för dessa post hoc-tester. Dessa familjefelhastigheter växer i en överraskande takt!
slutligen, om du inte behöver utföra alla parvisa jämförelser, är det värt att jämföra endast en delmängd eftersom du behåller mer statistisk kraft.
om du lär dig om hypotesprovning och gillar det tillvägagångssätt Jag använder i min blogg, kolla in min eBook!