Post hoc-test er en integreret del af ANOVA. Når du bruger ANOVA til at teste ligheden mellem mindst tre gruppemidler, viser statistisk signifikante resultater, at ikke alle gruppemidlerne er ens. ANOVA-resultaterne identificerer imidlertid ikke, hvilke særlige forskelle mellem par af midler der er signifikante. Brug post hoc-test til at undersøge forskelle mellem flere gruppemedier, mens du kontrollerer den eksperimentelle fejlfrekvens.,
i dette indlæg viser jeg dig, hvilke post hoc-analyser der er, de kritiske fordele, de giver, og hjælper dig med at vælge den rigtige til din undersøgelse. Derudover vil jeg vise, hvorfor manglende kontrol af den eksperimentelle fejlfrekvens vil få dig til at have alvorlig tvivl om dine resultater.
startende med Anova Omnibus Test
typisk, når du vil afgøre, om tre eller flere midler er forskellige, udfører du ANOVA. Statistikere henviser til ANOVA f-testen som en omnibus test. ANELCHS ANOVA er en anden type omnibus-test.,
en omnibus test giver samlede resultater for dine data. Samlet set er forskellene mellem midlerne statistisk signifikante-Ja eller Nej?
Hvis p-værdien fra din ANOVA F-test eller testelchs test er mindre end dit signifikansniveau, kan du afvise nulhypotesen.
- Null: alle gruppemidler er ens.
- Alternativ: ikke alle gruppemidler er ens.
ANOVA-testresultaterne kortlægger dog ikke, hvilke grupper der er forskellige fra andre grupper., Som du kan se fra hypoteserne ovenfor, hvis du kan afvise null, ved du kun, at ikke alle midlerne er ens. Nogle gange har du virkelig brug for at vide, hvilke grupper der er væsentligt forskellige fra andre grupper!
: Hvordan F-tests Arbejde i ANOVA og Welch ‘ s ANOVA
Eksempel En-Vejs ANOVA til Brug med Post Hoc Test
Vi vil starte med denne en-vejs ANOVA eksempel, og derefter bruge det til at illustrere tre post-hoc tests i hele dette blog-indlæg. Forestil dig, at vi tester fire materialer, som vi overvejer for at lave en produktdel., Vi ønsker at afgøre, om de gennemsnitlige forskelle mellem styrkerne af disse fire materialer er statistisk signifikante. Vi opnår følgende envejs ANOVA resultater. For at følge dette eksempel skal du Do .nloade CSV-datasættet: PostHocTests.
p-værdi 0.004 tyder på, at vi kan forkaste nulhypotesen, og konkludere, at de fire betyder, at ikke alle er lige. Middeltabellen nederst viser gruppeorganerne. Vi ved dog ikke, hvilke par grupper der er væsentligt forskellige.,
for at sammenligne gruppemidler skal vi udføre post hoc-test, også kendt som flere sammenligninger. På Latin betyder post hoc ” efter dette.”Du udfører post hoc analyser efter en statistisk signifikant omnibus test (f-test eller Welelch’ s).
før vi kommer til disse gruppesammenligninger, skal du lære om den eksperimentelle fejlfrekvens.
: sådan fortolkes P-værdier korrekt, og hvordan man gør envejs ANOVA i E ?cel
Hvad er den eksperimentelle fejlfrekvens?
Post hoc-test udfører to vigtige opgaver., Ja, de fortæller dig, hvilke gruppemidler der er væsentligt forskellige fra andre gruppemidler. Af afgørende betydning kontrollerer de også den eksperimentelle eller Family .ise fejlrate. I denne sammenhæng er eksperiment-wiseise, familie-wiseise og familiefejlrater alle synonymer, som jeg vil bruge om hverandre.
Hvad er denne eksperiment-wiseise fejlrate? For hver hypotesetest, du udfører, er der en type i-fejlrate, som dit signifikansniveau (alfa) definerer. Med andre ord er der en chance for, at du afviser en nulhypotese, der faktisk er sandt—det er en falsk positiv., Når du kun udfører en test, er type i-fejlfrekvensen lig med dit signifikansniveau, som ofte er 5%. Men når du udfører flere og flere tests, øges din chance for en falsk positiv. Hvis du udfører nok test, er du næsten garanteret at få en falsk positiv! Fejlfrekvensen for en familie af test er altid højere end en individuel test.
Forestil dig, at du ruller et par terninger, og at rulle to (kendt som snake eyes) repræsenterer en type i-fejl. Sandsynligheden for snake eyes for en enkelt rulle er ~2,8% i stedet for 5%, men du får ideen., Hvis du kaster terningerne bare oncen gang, er dine chancer for rullende slangeøjne ikke så dårlige. Men jo flere gange du ruller terningerne, jo mere sandsynligt får du to. Med 25 ruller bliver slangeøjne mere sandsynlige end ikke (50,8%). Med nok ruller bliver det uundgåeligt.
: Typer af Fejl i Hypotesetest og Betydning Niveauer og P-værdier
Familie fejlprocenter i ANOVA
I ANOVA-forbindelse, du ønsker at sammenligne gruppen betyder. Jo flere grupper du har, jo flere sammenligningstest skal du udføre., For vores eksempel ANOVA med fire grupper (A B C D), skal vi foretage følgende seks sammenligninger.
- Et – B
- A – C
- Et – D
- B – C
- B – D
- C – D
Vores eksperiment omfatter denne familie af seks sammenligninger. Hver sammenligning repræsenterer en terningkast for at opnå en falsk positiv. Hvad er fejlfrekvensen for seks sammenligninger? Desværre, som du vil se næste, eksperiment-wiseise fejlrate snebolde baseret på antallet af grupper i dit eksperiment.
den eksperimentelle fejlfrekvens bliver hurtigt problematisk!,
tabellen nedenfor viser, hvordan forøgelse af antallet af grupper i din undersøgelse får antallet af sammenligninger til at stige, hvilket igen øger den familiemæssige fejlrate. Bemærk, hvor hurtigt mængden af sammenligninger stiger ved at tilføje blot et par grupper! Tilsvarende bliver den eksperimentelle fejlrate hurtigt problematisk.
tabellen starter med to grupper, og den enkelte sammenligning mellem dem har en eksperimentel fejlfrekvens, der svarer til signifikansniveauet (0,05). Desværre stiger den familiemæssige fejlrate hurtigt derfra!,
formlen for det maksimale antal sammenligninger, du kan gøre for N grupper er: (N*(N-1))/2. Det samlede antal sammenligninger er familien af sammenligninger for dit eksperiment, når du sammenligner alle mulige par grupper (dvs.alle parvise sammenligninger). Derudover er formlen til beregning af fejlfrekvensen for hele sæt sammenligninger 1 – (1 – α)^C. Alpha er dit signifikansniveau for en enkelt sammenligning, og C er lig med antallet af sammenligninger.,
den eksperimentelle fejlfrekvens repræsenterer sandsynligheden for en type i-fejl (falsk positiv) over den samlede familie af sammenligninger. Vores ANOVA eksempel har fire grupper, som producerer seks sammenligninger og en familie-wiseise fejlrate på 0,26. Hvis du øger grupperne til fem, springer fejlfrekvensen til 40%! Når du har 15 grupper, er du næsten garanteret at have en falsk positiv (99,5%)!
Post Hoc-test kontrollerer den eksperimentelle fejlfrekvens
tabellen illustrerer kortfattet det problem, som post hoc-test løser., Når du udfører statistisk analyse, forventer du typisk en falsk positiv sats på 5%, eller hvilken værdi du angiver for signifikansniveauet. Som tabellen viser, når du øger antallet af grupper fra 2 til 3, tredobles fejlfrekvensen næsten fra 0,05 til 0,143. Og det forværres hurtigt derfra!
disse fejlfrekvenser er for høje! Når du ser en betydelig forskel mellem grupper, ville du have alvorlig tvivl om, hvorvidt det var en falsk positiv snarere end en reel forskel.,
Hvis du bruger 2-prøve t-test til systematisk at sammenligne alle gruppemidler i din undersøgelse, vil du støde på dette problem. 0,05), og så bestemmer antallet af sammenligninger den eksperimentelle fejlfrekvens, som vist i tabellen.heldigvis bruger post hoc-test en anden tilgang. For disse tests indstiller du den eksperimentelle fejlrate, du ønsker for hele sæt sammenligninger. Derefter beregner post hoc-testen signifikansniveauet for alle individuelle sammenligninger, der producerer den family .ise-fejlrate, du angiver.,at forstå, hvordan post hoc-test fungerer, er meget enklere, når du ser dem i aktion. Lad os vende tilbage til vores envejs ANOVA-eksempel!
eksempel på at bruge Tukeys metode med envejs ANOVA
For vores ANOVA eksempel har vi fire grupper, der kræver seks sammenligninger for at dække alle kombinationer af grupper. Vi bruger en post hoc-test og specificerer, at familien med seks sammenligninger samlet skal producere en family errorise-fejlrate på 0.05. Den post hoc-test, jeg vil bruge, er Tukeys metode., Der er en række post hoc-test, du kan vælge imellem, men Tukeys metode er den mest almindelige til sammenligning af alle mulige gruppeparringer.
Der er to måder at præsentere post hoc—testresultater på-justerede p-værdier og samtidige konfidensintervaller. Jeg viser dem begge nedenfor.
justerede p-værdier
tabellen nedenfor viser de seks forskellige sammenligninger i vores undersøgelse, forskellen mellem gruppemetoder og den justerede p-værdi for hver sammenligning.,
den justerede p-værdi identificerer de gruppesammenligninger, der er væsentligt forskellige, mens familiefejlfrekvensen begrænses til dit signifikansniveau. Du skal blot sammenligne de justerede p-værdier til din Betydning niveau. Når justerede p-værdier er mindre end signifikansniveauet, er forskellen mellem disse gruppeorganer statistisk signifikant. Det er vigtigt, at denne proces styrer familiefejlfrekvensen til dit signifikansniveau. Vi kan være sikre på, at hele dette sæt sammenligninger kollektivt har en fejlrate på 0,05.,
i output ovenfor er det kun D – B-forskellen, der er statistisk signifikant, mens du bruger en familiefejlhastighed på 0, 05. Den gennemsnitlige forskel mellem disse to grupper er 9,5.
samtidige konfidensintervaller
den anden måde at præsentere post hoc-testresultater er ved at bruge samtidige konfidensintervaller af forskellene mellem midler. I en individuel test er hypotesetestresultaterne ved hjælp af et signifikansniveau af α i overensstemmelse med konfidensintervaller ved hjælp af et konfidensniveau på 1 – α. For eksempel hypotesetest med et signifikansniveau på 0.,05 svarer til 95% konfidensintervaller.
i post hoc-test bruger vi et samtidig konfidensniveau snarere end et individuelt konfidensniveau. Det samtidige konfidensniveau gælder for hele sammenligningsfamilien. Med et konfidensniveau på 95% samtidig kan vi være 95% sikre på, at alle intervaller i vores sæt sammenligninger indeholder de faktiske befolkningsforskelle mellem grupper. En fejlfrekvens på 5% i forsøget svarer til 95% samtidige konfidensintervaller.
Tukey samtidige CIs for vores envejs ANOVA eksempel
lad os komme til konfidensintervallerne., Mens tabellen ovenfor viser disse CIs numerisk, kan jeg godt lide grafen nedenfor, fordi den giver mulighed for en simpel visuel vurdering, og den giver mere information end de justerede p-værdier.
nul angiver, at gruppemidlerne er ens. Når et konfidensinterval ikke indeholder nul, er forskellen mellem det par grupper statistisk signifikant. I diagrammet er kun forskellen mellem D – B signifikant. Disse CI-resultater matcher hypotesetestresultaterne i den foregående tabel., Jeg foretrækker disse CI-resultater, fordi de også giver yderligere oplysninger, som de justerede p-værdier ikke formidler.
disse konfidensintervaller giver intervaller af værdier, der sandsynligvis indeholder den faktiske populationsforskel mellem par af grupper. Som med alle CIs afslører bredden af intervallet for forskellen præcisionen af estimatet. Smalere intervaller antyder et mere præcist skøn. Og du kan vurdere, om hele spektret af værdier er praktisk talt signifikant., Husk, at statistisk betydning ikke nødvendigvis indikerer, at resultaterne er meningsfulde i den virkelige verden.
når intervallet er for bredt (upræcist) til at være nyttigt, og / eller intervallet inkluderer forskelle, der ikke er praktisk talt betydningsfulde, har du grund til at tøve, inden du træffer beslutninger baseret på resultaterne.
Post Hoc-test og den statistiske Effekttradeoff
Post hoc-test er gode til at kontrollere den familiemæssige fejlfrekvens. Mange tekster ville stoppe på dette tidspunkt. Imidlertid, en afvejning sker bag kulisserne., Du skal være opmærksom på det, fordi du muligvis kan styre det effektivt. Afvejningen er følgende:
Post hoc-test kontrollerer den eksperimentelle fejlfrekvens ved at reducere sammenligningernes statistiske effekt.
Sådan fungerer det, og hvad det betyder for din undersøgelse.
for at opnå den familiefejlrate, du angiver, skal post hoc-procedurer sænke signifikansniveauet for alle individuelle sammenligninger. For eksempel, for at ende med en familiefejlrate på 5% for et sæt sammenligninger, bruger proceduren et endnu lavere individuelt signifikansniveau.,
efterhånden som antallet af sammenligninger stiger, skal post hoc-analysen sænke det individuelle signifikansniveau yderligere. For vores seks sammenligninger, Tukey ‘ s metode bruger en individuel signifikans niveau på ca. 0,011 til at producere familie-wiseise fejlprocent på 0,05. Hvis vores ANOVA krævede flere sammenligninger, ville det være endnu lavere.
Hvad er problemet med at bruge et lavere individuelt signifikansniveau? Lavere signifikansniveauer svarer til lavere statistisk effekt., Hvis der faktisk findes en forskel mellem gruppemidler i befolkningen, er det mindre sandsynligt, at en undersøgelse med lavere effekt opdager det. Du går måske glip af vigtige fund!
at undgå denne effektreduktion er grunden til, at mange undersøgelser bruger et individuelt signifikansniveau på 0, 05 snarere end 0, 01. Desværre er vores eksempel post hoc-test med kun fire grupper tvunget til at bruge det lavere signifikansniveau.nøgle Takea .ay: jo flere gruppesammenligninger du foretager, jo lavere er den statistiske effekt af disse sammenligninger.,
Relaterede indlæg: Forståelse af Statistiske Power
Forvalte den Magt Afvejning i Post-Hoc Tests ved at Reducere Antallet af Sammenligninger
En metode til at mindske denne afvejning er ved at reducere antallet af sammenligninger. Denne reduktion gør det muligt for proceduren at bruge en større individuel fejlrate for at opnå den familiefejlrate, du angiver—hvilket øger den statistiske effekt.
i hele denne artikel har jeg skrevet om at udføre alle parvise sammenligninger—som sammenligner alle mulige gruppeparringer., Selvom dette er den mest almindelige tilgang, stiger antallet af kontraster hurtigt op! Afhængigt af din studies formål behøver du dog muligvis ikke at sammenligne alle mulige grupper.
din undersøgelse skal muligvis kun sammenligne en delmængde af alle mulige sammenligninger af forskellige årsager. Jeg dækker to almindelige grunde og viser dig, hvilke post hoc-test du kan bruge. I de følgende eksempler viser jeg kun konfidensinterval graferne og ikke hypotesetestresultaterne. Bemærk, hvordan disse andre metoder gør færre sammenligninger (3 og 4) for vores eksempel datasæt end Tukeys metode (6).,
mens du designer din undersøgelse, er det vigtigt, at du på forhånd definerer den flere sammenligningsmetode, du vil bruge. Prøv ikke forskellige metoder, og vælg derefter den, der giver de mest gunstige resultater. Det er dataudgravning, og det kan føre til falske fund. Jeg bruger flere post hoc-test på et enkelt datasæt for at vise, hvordan de adskiller sig, men det er ikke en passende praksis for en reel undersøgelse. Definer din metode på forhånd, herunder en post hoc-analyse, før du analyserer dataene, og hold dig til det!,når det er muligt, kan du sammenligne en delmængde af grupper for at øge din statistiske styrke.
eksempel på at bruge Dunnetts metode til at sammenligne behandlingsgrupper med en kontrolgruppe
Hvis dit studie har en kontrolgruppe og flere behandlingsgrupper, skal du muligvis kun sammenligne behandlingsgrupperne med kontrolgruppen.
brug Dunnetts metode, når følgende er sandt:
- før undersøgelsen ved du, hvilken gruppe (kontrol) du vil sammenligne med alle de andre grupper (behandlinger).
- du behøver ikke at sammenligne behandlingsgrupperne med hinanden.,
lad os bruge Dunnetts metode med vores eksempel envejs ANOVA, men vi justerer scenariet lidt. Antag, at vi i øjeblikket bruger materiale A. Vi udførte dette eksperiment for at sammenligne de alternative materialer (B, C og D) med det. Materiale A vil være vores kontrolgruppe, mens de tre andre er behandlingerne.
Ved hjælp af Dunnetts metode ser vi, at kun b – a-forskellen er statistisk signifikant, fordi intervallet ikke inkluderer nul. Ved hjælp af Tukey ‘ s metode var denne sammenligning ikke signifikant., Den ekstra magt, der blev opnået ved at foretage færre sammenligninger, kom igennem for os. På den anden side, i modsætning til Tukeys metode, finder Dunnetts metode ikke, at d – b-forskellen er signifikant, fordi den ikke sammenligner behandlingsgrupperne med hinanden.
eksempel på at bruge Hsu ‘ s MCB til at finde det stærkeste materiale
Hvis dit studie mål er at identificere den bedste gruppe, behøver du muligvis ikke at sammenligne alle mulige grupper. Hsu ‘ s flere sammenligninger med de bedste (MCB) identificerer de grupper, der er de bedste, ubetydeligt forskellige fra de bedste og væsentligt forskellige fra de bedste.,
brug Hsu ‘ s MCB, når du:
- ikke på forhånd ved, hvilken gruppe du vil sammenligne med alle de andre grupper.
- behøver ikke at sammenligne grupper, der ikke er de bedste til andre grupper, der ikke er de bedste.
- kan definere “det bedste” som enten gruppen med den højeste middelværdi eller den laveste middelværdi.
Hsu ‘ s MCB sammenligner hver gruppe med gruppen med den bedste middelværdi (højeste eller laveste). Ved hjælp af denne procedure kan du ende med flere grupper, der ikke er væsentligt anderledes end den bedste gruppe., Husk, at den gruppe, der virkelig er bedst i hele befolkningen, måske ikke har den bedste prøvemiddelværdi på grund af prøveudtagningsfejl. De grupper, der ikke er væsentligt forskellige fra den bedste gruppe kan være så god som, eller endnu bedre end, gruppen med den bedste prøve middelværdi.
samtidige konfidensintervaller for Hsu ‘ s MCB
For vores envejs ANOVA ønsker vi at bruge det materiale, der producerer de stærkeste dele. Derfor bruger vi Hsu ‘ s MCB og definerer det højeste middel som det bedste. Vi er ligeglade med alle de andre mulige sammenligninger.,
Gruppe D er den bedste gruppe samlet, fordi den har den højeste middelværdi (41.07). Proceduren sammenligner d med alle de andre grupper. For Hsu ‘ s MCB er en gruppe væsentligt bedre end en anden gruppe, når konfidensintervallet har nul som slutpunkt. Fra grafen kan vi se, at Materiale D er markant bedre end B og C. Imidlertid indeholder A-D-sammenligningen nul, hvilket indikerer, at A ikke adskiller sig væsentligt fra det bedste.
Hsu ‘ s MCB bestemmer, at kandidaterne til den bedste gruppe er A og D., D har det højeste prøvemiddelværdi, og A adskiller sig ikke væsentligt fra D. på den anden side, proceduren udelukker effektivt B og C fra at være den bedste.
resum of af brug af flere sammenligningsmetoder
i dette blogindlæg har du set, hvordan omnibus ANOVA-testen bestemmer, om midlerne er forskellige generelt, men det identificerer ikke specifikke gruppeforskelle, der er statistisk signifikante.
Hvis du opnår betydelige ANOVA-resultater, skal du bruge en post hoc-test til at undersøge de gennemsnitlige forskelle mellem par af grupper.,
du har også lært, hvordan kontrol af den eksperimentelle fejlfrekvens er en afgørende funktion af disse post hoc-test. Disse familiefejlrater vokser med en overraskende hastighed!
endelig, hvis du ikke behøver at udføre alle parvise sammenligninger, er det værd at sammenligne kun en delmængde, fordi du beholder mere statistisk effekt.
Hvis du lærer om hypotesetest og kan lide den tilgang, Jeg bruger i min blog, så tjek min e-bog!