Post hoc tester er en integrert del av ANOVA. Når du bruker ANOVA for å teste likestilling av minst tre gruppe betyr statistisk signifikante resultater tyder på at ikke alle i gruppen betyr er like. Imidlertid, ANOVA resultatene ikke identifisere hvilke forskjeller mellom par av midlene er betydelig. Bruk post hoc tester for å utforske forskjellene mellom flere gruppen betyr samtidig med kontroll av eksperiment-messig feil pris.,
I dette innlegget, skal jeg vise deg hva post hoc-analyser er, den kritiske fordelene de tilbyr, og hjelpe deg med å velge det riktige for ditt studium. I tillegg vil jeg vise hvorfor unnlatelse av å kontrollere eksperiment-messig feil vil føre til alvorlig tvil om resultatene.
du Starter med ANOVA Omnibus Test
Vanligvis, når du ønsker å finne ut om det er tre eller flere virkemidler er forskjellige, vil du utføre ANOVA. Statistikere se ANOVA (F-test som en omnibus-test. Welch ‘ s ANOVA er en annen type omnibus test.,
En omnibus-test gir samlede resultater for dine data. Kollektivt, er forskjellene mellom gjennomsnittene er statistisk signifikante,—Ja eller Nei?
Hvis p-verdien fra ANOVA (F-test eller Welch ‘ s test er mindre enn den betydning nivå, du kan forkaste nullhypotesen.
- Null: Alle konsernets midler er like.
- Alternativ: Ikke alle gruppe-midler er like.
Imidlertid ANOVA test resultatene ikke kartlegge hvilke grupper som er forskjellige fra andre grupper., Som du kan se fra hypotesene ovenfor, hvis du kan avvise null, du bare vet at ikke alle av de virkemidler som er like. Noen ganger du virkelig trenger å vite hvilke grupper er signifikant forskjellig fra andre grupper!
: Hvordan F-tester Arbeid i ANOVA, og Welch ‘ s ANOVA
Eksempel One-Way ANOVA å Bruke med Post Hoc Tester
vil Vi starte med denne en-veis ANOVA eksempel, og deretter bruke den for å illustrere tre post hoc tester gjennom denne bloggen. Forestille vi tester fire materiell som vi vurderer for å lage et produkt del., Vi ønsker å finne ut om de mener forskjellene mellom styrken til disse fire materiale er statistisk signifikant. Vi får følgende one-way ANOVA resultater. Å følge sammen med dette eksemplet, kan du laste ned CSV-dataset: PostHocTests.
p-verdien av 0.004 indikerer at vi kan forkaste nullhypotesen og konkluderer med at de fire betyr er ikke alle like. Det Betyr at tabellen nederst viser gruppen betyr. Imidlertid, vi vet ikke hvilke par av gruppene er signifikant forskjellige.,
for Å sammenligne gruppen betyr at vi ikke trenger for å utføre post hoc tester, også kjent som flere sammenligninger. I Latin, post hoc betyr «etter dette.»Du gjennomføre post hoc-analyser etter en statistisk signifikant omnibus test (F-test eller Welch’ s).
Før vi kommer til disse gruppe sammenligninger, du trenger å lære om eksperimentet-messig feil pris.
: Hvordan å Tolke P-verdier som er Riktig og Hvordan å gjøre En-Veis ANOVA i Excel
Hva er Eksperiment-messig Feil Pris?
Post hoc tester utfører to viktige oppgaver., Ja, de forteller deg hvilken gruppe som betyr at det er vesentlig forskjellige fra andre gruppen betyr. Det som er avgjørende, de har også kontrollere eksperiment-messig, eller familywise, feil pris. I denne sammenheng, eksperiment-messig, familie-messig, og familien feil priser er alle synonymer at jeg skal bruke om hverandre.
Hva er dette eksperimentet-messig feil pris? For hver hypotesetest du utfører, det er en type i feil, som har betydning nivå (alpha) definerer. Med andre ord, det er en sjanse for at du vil forkaste null-hypotesen er at det er faktisk sant—det er en falsk positiv., Når du utfører bare en test, den typen jeg feil pris er lik din betydning nivå, som ofte er 5%. Men, som du gjennomfører flere og flere tester, din sjanse for et falskt positivt resultat øker. Hvis du utføre nok tester, er du nesten garantert å få et falskt positivt! Feilraten for en familie på tester er alltid høyere enn en individuell test.
Tenk deg at du har rullet et par terninger og kaster to ones (kjent som snake eyes) representerer en Type i feil. Sannsynligheten for å snake eyes for en enkel roll er ~2.8% snarere enn 5%, men du får ideen., Hvis du rulle terningen bare en gang, dine sjanser for å rulle snake eyes ikke er altfor dårlig. Men jo flere ganger du rulle terningen, jo mer sannsynlig vil du få to kjære. Med 25 ruller, snake eyes bli mer sannsynlig enn ikke (50.8%). Med nok ruller, det blir uunngåelig.
: Typer av Feil i hypotesetesting og Betydning Nivåer og P-verdier
Familie Feil Priser i ANOVA
I ANOVA-sammenheng, som du ønsker å sammenligne gruppen betyr. Jo flere grupper du har, jo mer sammenligningen tester du trenger for å utføre., For vårt eksempel ANOVA med fire grupper (A-B C-D), må vi gjøre følgende seks sammenligninger.
- A – B
- En – C
- A – D
- B – C
- B – D
- D
Vår eksperiment dette inkluderer familie på seks sammenligninger. Hver sammenligningen representerer en rulle av terningene for å få en falsk positiv. Hva er feil pris for seks sammenligninger? Dessverre, som du vil se neste eksperimentet-messig feil pris snøballer basert på antall grupper i eksperimentet.
Eksperiment-messig Feil Blir Fort Problematisk!,
tabellen nedenfor viser hvordan øke antall grupper i ditt studium fører til at antall sammenligninger til å stige, noe som i sin tur øker familie-messig feil pris. Legg merke til hvor raskt antallet sammenligninger øker ved å legge til bare noen få grupper! Tilsvarende eksperiment-messig feil raskt blir problematisk.
tabellen starter med to grupper, og den eneste sammenligningen mellom dem har en eksperiment-messig feil sats som er lik den betydning nivå (0.05). Dessverre, familie-klok feil raskt øker fra det!,
formelen for maksimalt antall sammenligninger du kan gjøre for N gruppene er: (N*(N-1))/2. Det totale antallet sammenligninger er familien til sammenligninger for eksperimentet når du sammenligne alle mulige par av grupper (dvs., alle parvis sammenlikning). I tillegg formelen for beregning av feil pris for hele settet av sammenligninger er 1 – (1 – α)^C. Alpha er din betydning nivået for en enkel sammenligning, og C er lik antall sammenligninger.,
eksperimentet-messig feil pris representerer sannsynligheten for type i feil (falske positive) over den totale familie av sammenligninger. Våre ANOVA eksempel har fire grupper, som produserer seks sammenligninger og en familie-messig feil pris på 0.26. Hvis du øker grupper til fem, feil pris hopp til 40%! Når du har 15 grupper, er du nesten garantert å få en falsk positiv (99,5 prosent)!
Post Hoc Tester Styre Eksperiment-messig Feil
tabellen kort og konsist illustrerer problemet som post hoc tester løse., Vanligvis, når du utfører statistisk analyse, kan du forvente en falsk positiv rate på 5%, eller hva som helst verdi du angir for hvilken betydning nivå. Som tabellen viser, når du øker antall grupper fra 2 til 3, feilrate nesten tremannsrom fra 0,05 til 0.143. Og, blir det raskt forverres fra det!
Disse feil priser er for høy! Ved å se en signifikant forskjell mellom gruppene, ville du har alvorlig tvil om hvorvidt det var en falsk positiv snarere enn en reell forskjell.,
Hvis du bruker 2-utvalg t-tester for å systematisk sammenligne alle konsernets betyr i ditt studium, vil du støte på dette problemet. Du vil sette betydningen nivå for hver test (f.eks., 0.05), og deretter antall sammenligninger vil avgjøre eksperiment-messig feil pris, som vist i tabellen.
Heldigvis, post hoc tester bruker en annen tilnærming. For disse testene, kan du angi eksperiment-messig feil prisen du vil ha for hele settet av sammenligninger. Så, post-hoc testen beregner betydningen nivå for alle individuelle sammenligninger som produserer familywise feil pris du angir.,
Forstå hvordan post hoc tester arbeid er mye enklere når du ser dem i aksjon. La oss komme tilbake til våre en-veis ANOVA eksempel!
Eksempel på Bruk av Tukey ‘ s Metode med One-Way ANOVA
For våre ANOVA eksempel, har vi fire grupper som krever seks sammenligninger for å dekke alle kombinasjoner av grupper. Vi kommer til å bruke en post hoc test, og angi at familien på seks sammenligninger bør kollektivt produsere en familywise feil pris på 0,05. Post hoc test jeg vil bruke er Tukey ‘ s metode., Det er et utvalg av post hoc tester du kan velge fra, men Tukey ‘ s metode er den mest vanlige for å sammenligne alle mulige gruppe motstandere.
Det er to måter å presentere post hoc test resultater—justerte p-verdier og simultane konfidensintervaller. Jeg vil vise dem både under.
Justerte P-verdier
tabellen nedenfor viser seks ulike sammenligninger i vår studie, forskjellen mellom gruppen betyr, og justert p-verdi for hver sammenligning.,
justert p-verdi identifiserer konsernet sammenligninger som er vesentlig forskjellige, samtidig som du begrenser familie feil pris til ditt betydning nivå. Bare sammenligne den justerte p-verdier til betydningen nivå. Når justerte p-verdier som er mindre enn den betydning nivå, forskjellen mellom de som gruppe betyr er statistisk signifikant. Viktigere, er denne prosessen styrer familie-messig feil pris til ditt betydning nivå. Vi kan være sikre på at dette hele settet av sammenligninger samlet har en feilrate på 0,05.,
I utgang ovenfor, bare D – B forskjellen er statistisk signifikant, mens du bruker en familie feil pris på 0,05. Gjennomsnittlig forskjell mellom disse to gruppene er 9.5.
Simultane konfidensintervaller
Den andre måten å presentere post hoc test resultater på, er ved hjelp av simultane konfidensintervaller for forskjeller mellom midler. I en individuell test, hypotesetest resultater ved hjelp av en betydning nivå av α er i samsvar med konfidensintervaller med et konfidensnivå på 1 – α. For eksempel, hypotesetestene med en betydning nivå 0.,05 tilsvarer 95% konfidensintervaller.
I post-hoc tester, bruker vi en samtidig tillit nivå heller enn en individuell tillit nivå. Samtidig confidence level gjelder for hele familien av sammenligninger. Med et 95% samtidig confidence level, kan vi være 95% sikre på at alle intervaller i vår satt av sammenligninger inneholder den faktiske befolkningen forskjeller mellom grupper. En 5% eksperiment-messig feil tilsvarer 95% simultane konfidensintervaller.
Tukey Samtidig CIs for våre En-Veis ANOVA Eksempel
La oss komme til konfidensintervaller., Mens tabellen over viser disse CIs-numerisk, jeg liker grafen nedenfor fordi det gir mulighet for en enkel visuell vurdering, og det gir mer informasjon enn den justerte p-verdier.
Null indikerer at gruppen betyr er like. Når et konfidensintervall ikke inneholde en null, forskjellen mellom at par av gruppene er statistisk signifikant. I diagrammet, bare forskjellen mellom D – B er betydelig. Disse CI resultatene samsvarer med hypotesen om testresultatene i forrige tabell., Jeg foretrekker disse CI resultater fordi de gir også ytterligere informasjon som justerte p-verdier ikke formidle.
Disse konfidensintervallene gi områder av verdier som sannsynligvis inneholder den faktiske befolkningen forskjellen mellom par av grupper. Som med alle CIs, bredden på intervallet for forskjellen avslører presisjonen i estimatet. Smalere intervaller foreslå et mer nøyaktig estimat. Og, du kan vurdere om hele spekteret av verdier er praktisk talt betydelig., Husk, statistisk signifikans ikke nødvendigvis tilsier at resultatene er relevante i den virkelige verden.
Når intervallet er for brede (upresist) for å være nyttig og/eller sortimentet omfatter forskjeller som ikke er praktisk viktige, har du grunn til å nøle før beslutninger basert på resultatene.
Post Hoc Tester, og den Statistiske Kraften Kompromisset
Post hoc tester er stor for å kontrollere familie-messig feil pris. Mange tekster vil stoppe på dette punktet. Imidlertid, en byttehandel skjer bak kulissene., Du må være klar over det, fordi du kan være i stand til å håndtere den effektivt. Ulempen er følgende:
Post hoc tester styre eksperiment-messig feil ved å redusere den statistiske kraften av sammenligninger.
Her er hvordan det fungerer og hva det betyr for ditt studium.
for Å få familien feil pris du angir, post hoc prosedyrer må senke betydning nivå for alle individuelle sammenligninger. For eksempel, for å ende opp med en familie feil sats på 5% for et sett av sammenligninger, fremgangsmåten bruker en enda lavere individuelle betydning nivå.,
Som antall sammenligninger øker, post hoc-analyse må senke individuelle betydning nivået ytterligere. For våre seks sammenligninger, Tukey ‘ s metode som bruker en individuell betydning nivå på ca 0.011 å produsere familie-messig feil pris på 0,05. Hvis våre ANOVA kreves mer sammenligninger, ville det være enda lavere.
Hva er problemet med å bruke en lavere individuelle betydning nivå? Lavere betydning nivåer svarer til lavere statistisk kraft., Hvis det er en forskjell mellom gruppen betyr faktisk eksisterer i befolkningen, en studie med lavere effekt er mindre sannsynlighet for å oppdage det. Du kan gå glipp av viktige funn!
for å Unngå denne kraften reduksjon er derfor mange studier bruker en individuell betydning nivå på 0,05 snarere enn 0,01. Dessverre, med bare fire grupper, vårt eksempel post hoc test er tvunget til å bruke den lavere betydning nivå.
– Tasten Takeaway: Jo mer gruppe sammenligninger du gjør, jo lavere den statistiske kraften i de sammenligninger.,
Relaterte innlegg: Forstå Statistiske Strøm
Administrere Strøm Kompromisset i Post Hoc Tester ved å Redusere Antall Sammenligninger
En metode for å redusere denne ulempen er ved å redusere antallet sammenligninger. Denne reduksjonen gjør at fremgangsmåten for å bruke en større individuelle feil pris til å oppnå familien feil pris på at du oppgir—noe som øker den statistiske kraften.
i denne artikkelen jeg har skrevet om å utføre alle parvis sammenlikning—som sammenligner alle mulige gruppe motstandere., Mens dette er den mest vanlige tilnærmingen, antall kontraster raskt hauger opp! Imidlertid, avhengig av hvilket studium formål, kan du ikke trenger å sammenligne alle mulige grupper.
Ditt studium kanskje å sammenligne kun en delmengde av alle mulige sammenligninger for en rekke årsaker. Jeg vil dekke to vanlige årsaker og vise deg hvilke post hoc tester som du kan bruke. I de følgende eksemplene, vil jeg bare vise konfidensintervall grafer og ikke hypotesen om test resultater. Legg merke til hvordan disse andre metoder for å gjøre færre sammenligninger (3 og 4) i vårt eksempel dataset enn Tukey ‘ s metode (6).,
Mens du designe ditt studium, det er avgjørende som du definerer i forkant flere sammenligninger metode som du vil bruke. Ikke prøv ulike metoder, og deretter velge den som gir de mest gunstige resultatene. Det er data mudring, og det kan føre til falske funn. Jeg bruker flere post hoc tester på en enkelt datasett for å vise hvordan de er forskjellige, men det er ikke en hensiktsmessig praksis for en reell studie. Angi dine metodikk på forhånd, inkludert en post hoc-analyse, før analysering av data, og holde seg til det!,
– Tasten Takeaway: Når det er mulig, kan du sammenligne et delsett av grupper for å øke din statistisk kraft.
Eksempel på Bruk av Dunnett ‘ s Metode for å Sammenligne Behandling Grupper til en Kontroll Gruppe
Hvis din studien har en kontrollgruppe og flere behandling grupper, trenger du kanskje å sammenligne behandling grupper kun til kontrollgruppen.
Bruk Dunnett ‘ s metode når følgende er oppfylt:
- Før studien, du vet hvilken gruppe (kontroll) som du ønsker å sammenligne alle de andre gruppene (behandlinger).
- Du trenger ikke å sammenligne behandling grupper til hverandre.,
La oss bruke Dunnett ‘ s metode med vårt eksempel one-way ANOVA, men vi vil finjustere scenariet litt. Anta at vi bruker Materiale A. Vi har utført dette eksperimentet for å sammenligne alternative materialer (B, C, og D) til det. Materialet En vil være vår kontroll gruppe, mens de andre tre behandlinger.
ved Hjelp av Dunnett ‘ s metode, ser vi at kun B – En forskjell er statistisk signifikant, fordi intervall ikke omfatter null. Ved hjelp av Tukey ‘ s metode, denne sammenligningen var ikke signifikante., Den ekstra kraften fikk ved å gjøre færre sammenligninger kom gjennom til oss. På den annen side, i motsetning til Tukey ‘s metode, Dunnett’ s metode ikke finne at D – B forskjellen er viktig fordi det ikke sammenligne behandling grupper til hverandre.
Eksempel på Bruk av Hsu er MCB å Finne den Sterkeste Materiale
Hvis ditt studium mål er å identifisere den beste gruppen, har du kanskje ikke trenger å sammenligne alle mulige grupper. Hsu er Flere Sammenligninger til den Beste (MCB) identifiserer grupper som er den beste, insignificantly forskjellige fra de beste, og signifikant forskjellig fra de beste.,
Bruk Hsu er MCB når du:
- vet ikke på forhånd hvilken gruppe du ønsker å sammenligne alle de andre gruppene.
- du trenger ikke å sammenligne grupper som ikke er de beste til andre grupper som ikke er de beste.
- Kan definere «de beste», enten den gruppen med høyest mener, eller det laveste gjennomsnittet.
Hsu er MCB sammenligner hver gruppe til gruppe med det beste gjennomsnittet (høyeste eller laveste). Ved å bruke denne fremgangsmåten, kan du ende opp med flere grupper som ikke er vesentlig annerledes enn den beste gruppen., Husk at den gruppen som er virkelig best i hele befolkningen har kanskje ikke den beste utvalgsgjennomsnittet på grunn av utvalgsfeilen. De gruppene er ikke signifikant forskjellig fra den beste gruppen kan være like gode som, eller bedre enn, den gruppen med best utvalgsgjennomsnitt.
Simultane konfidensintervaller for Hsu er MCB
For våre en-veis ANOVA, vi ønsker å bruke materialet som skaper de sterkeste delene. Derfor vil vi bruke Hsu er MCB og angi høyeste betyr som den beste. Bryr vi oss ikke om alle de andre mulige sammenligninger.,
Gruppe D er den beste gruppen samlet fordi det har det høyeste gjennomsnittet (41.07). Prosedyren sammenligner D til alle de andre gruppene. For Hsu er MCB), en gruppe som er betydelig bedre enn en annen gruppe når konfidensintervallet har null som et endepunkt. Fra grafen kan vi se at Materialet D er betydelig bedre enn B og C. Men, A-D sammenligningen inneholder null, noe som indikerer at En er ikke vesentlig forskjellig fra de beste.
Hsu er MCB bestemmer at kandidater for beste gruppe A og D., D har den høyeste eksempel mener og er ikke signifikant forskjellig fra D. På den annen side, prosedyren effektivt reglene B og C fra å være den beste.
Oppsummering av å Bruke Flere Sammenligning Metoder
I dette blogg innlegget, har du sett hvordan omnibus ANOVA testen avgjør om midler er forskjellige generelt, men det gjør ikke identifisere spesifikke gruppe forskjeller som er statistisk signifikante.
Hvis du får tak i betydelig ANOVA resultater, kan du bruke en post hoc test for å utforske de mener forskjeller mellom par av grupper.,
Du har også lært hvordan å kontrollere eksperiment-messig feil pris er en avgjørende funksjon av disse post-hoc tester. Disse familie feil priser vokse på en overraskende pris!
til Slutt, hvis du ikke trenger å utføre alle parvis sammenlikning, er det verdt å sammenlikne bare et delsett fordi du vil beholde mer statistisk kraft.
Hvis du lærer om hypotesetesting og som tilnærming jeg bruker i min blogg, sjekk ut min bok!