Post-hoctests maken integraal deel uit van ANOVA. Wanneer u ANOVA gebruikt om de gelijkheid van ten minste drie groepsgemiddelden te testen, geven statistisch significante resultaten aan dat niet alle groepsgemiddelden gelijk zijn. De ANOVA-resultaten geven echter niet aan welke specifieke verschillen tussen paren van middelen significant zijn. Gebruik post hoc tests om verschillen tussen meerdere groep middelen te onderzoeken, terwijl het controleren van het experiment-wise foutenpercentage.,
In dit artikel zal ik u laten zien wat post hoc analyses zijn, de cruciale voordelen die ze bieden, en u helpen de juiste te kiezen voor uw studie. Bovendien, Ik zal laten zien waarom het niet controleren van de experiment-wise foutenpercentage zal leiden tot u om ernstige twijfels over uw resultaten te hebben.
beginnend met de Anova Omnibus Test
wanneer u wilt bepalen of drie of meer middelen verschillend zijn, voert u meestal ANOVA uit. Statistici verwijzen naar de ANOVA F-test als een omnibus test. Welch ‘ s ANOVA is een ander type omnibus test.,
een omnibus-test biedt algemene resultaten voor uw gegevens. Collectief, zijn de verschillen tussen de middelen statistisch significant-Ja of Nee?
als de p-waarde van uw ANOVA F-test of de test van Welch lager is dan uw significantieniveau, kunt u de nulhypothese afwijzen.
- Null: alle groepsgemiddelden zijn gelijk.
- alternatief: niet alle groepsgemiddelden zijn gelijk.
ANOVA-testresultaten geven echter niet aan welke groepen verschillen van andere groepen., Zoals je kunt zien uit de hypothesen hierboven, als je de null kunt afwijzen, Weet je alleen dat niet alle middelen gelijk zijn. Soms moet je echt weten welke groepen significant verschillen van andere groepen!
: hoe F-tests werken in ANOVA en Welch ‘ s Anova
voorbeeld One-Way ANOVA te gebruiken met Post-Hoc Tests
we beginnen met dit one-way ANOVA voorbeeld, en gebruiken het dan om drie post-hoc tests te illustreren in deze blogpost. Stel je voor dat we vier materialen testen die we overwegen om een productonderdeel te maken., We willen bepalen of de gemiddelde verschillen tussen de sterktes van deze vier materialen statistisch significant zijn. We verkrijgen de volgende one-way ANOVA resultaten. Om dit voorbeeld te volgen, download je de CSV dataset: PostHocTests.
de p-waarde van 0,004 geeft aan dat we de nulhypothese kunnen afwijzen en concluderen dat de vier middelen niet allemaal gelijk zijn. De Means tabel aan de onderkant toont de groep means. We weten echter niet welke paren van groepen significant verschillend zijn.,
om de middelen van de groep te vergelijken, moeten we post-hoc testen uitvoeren, ook bekend als meervoudige vergelijkingen. In het Latijn betekent post hoc ” hierna.”Je voert post hoc analyses uit na een statistisch significante omnibus test (F-test of Welch’ s).
voordat we tot deze groepsvergelijkingen komen, moet u meer te weten komen over het experiment-wise foutenpercentage.
: hoe p-waarden correct te interpreteren en hoe Eenrichtingsanova in Excel te doen
Wat is het Experimenteerfoutpercentage?
Post-hoctests voeren twee vitale taken uit., Ja, ze vertellen je welke groepsmiddelen significant verschillen van andere groepsmiddelen. Cruciaal is dat ze ook het experiment-wise, of familywise, foutenpercentage controleren. In deze context, experiment-wise, familie-wise, en familie foutenpercentages zijn allemaal Synoniemen die ik door elkaar zal gebruiken.
Wat is dit foutenpercentage voor het experiment? Voor elke hypothese test die u uitvoert, is er een type I foutenpercentage, dat uw significantieniveau (alpha) definieert. Met andere woorden, er is een kans dat je een nulhypothese afwijst die eigenlijk waar is—het is een vals positief., Wanneer u slechts één test uitvoert, is het type I foutenpercentage gelijk aan uw significantieniveau, dat vaak 5% is. Echter, als je meer en meer tests uit te voeren, uw kans op een vals positief neemt toe. Als je genoeg testen uitvoert, krijg je vrijwel gegarandeerd een vals positief! Het foutenpercentage voor een reeks tests is altijd hoger dan voor een individuele test.
stel je voor dat je een paar dobbelstenen gooit en twee enen rolt (bekend als snake eyes) vertegenwoordigt een type I fout. De kans op snake eyes voor een enkele rol is ~ 2,8% in plaats van 5%, maar je krijgt het idee., Als je de dobbelstenen maar één keer gooit, zijn je kansen op het rollen van snake eyes niet al te slecht. Hoe vaker je de dobbelstenen gooit, hoe groter de kans dat je twee enen krijgt. Met 25 rollen worden slangenogen waarschijnlijker dan niet (50,8%). Met genoeg rollen wordt het onvermijdelijk.
: soorten fouten bij het testen van hypothesen en Significantieniveaus en P-waarden
Familiefoutpercentages in ANOVA
In de ANOVA-context wilt u de groepsgemiddelden vergelijken. Hoe meer groepen je hebt, hoe meer vergelijkingstesten je moet uitvoeren., Voor ons voorbeeld ANOVA met vier groepen (A B C D), moeten we de volgende zes vergelijkingen maken.
- A-B
- A-C
- A-D
- B-C
- B-d
- C-D
ons experiment omvat deze familie van zes vergelijkingen. Elke vergelijking vertegenwoordigt een worp van de dobbelstenen voor het verkrijgen van een vals positief. Wat is het foutenpercentage voor zes vergelijkingen? Helaas, zoals je hierna zult zien, het experiment-wise foutenpercentage sneeuwballen gebaseerd op het aantal groepen in uw experiment.
het Experimenteerfoutenpercentage wordt snel problematisch!,
de tabel hieronder laat zien hoe een toename van het aantal groepen in uw studie het aantal vergelijkingen doet stijgen, wat op zijn beurt het foutenpercentage in familieverband verhoogt. Merk op hoe snel de hoeveelheid vergelijkingen toeneemt door slechts een paar groepen toe te voegen! Dienovereenkomstig wordt het experimenteerfoutenpercentage snel problematisch.
de tabel begint met twee groepen, en de enkele vergelijking tussen hen heeft een experiment-wise foutenpercentage dat gelijk is aan het significantieniveau (0,05). Helaas, de familie-wise foutenpercentage stijgt snel vanaf daar!,
De formule voor het maximale aantal vergelijkingen dat u kunt maken voor N-groepen is: (N*(n-1))/2. Het totale aantal vergelijkingen is de familie van vergelijkingen voor uw experiment wanneer u alle mogelijke paren van groepen (dat wil zeggen, alle paarsgewijze vergelijkingen). Bovendien is de formule voor het berekenen van het foutenpercentage voor de volledige set vergelijkingen 1 – (1 – α)^C. Alfa is uw significantieniveau voor een enkele vergelijking, en C is gelijk aan het aantal vergelijkingen.,
het experimenteerfoutenpercentage vertegenwoordigt de waarschijnlijkheid van een type I-fout (foutpositief) over de totale familie van vergelijkingen. Ons ANOVA-voorbeeld heeft vier groepen, wat zes vergelijkingen oplevert en een familiefoutenpercentage van 0,26. Als je de groepen verhoogt naar vijf, springt het foutenpercentage naar 40%! Als je 15 groepen hebt, heb je vrijwel gegarandeerd een vals positief (99,5%)!
Post-Hoc Tests controleren het Experiment-wise foutenpercentage
de tabel illustreert beknopt het probleem dat post-hoc tests oplossen., Typisch, bij het uitvoeren van statistische analyse, verwacht u een vals positief percentage van 5%, of welke waarde u instelt voor het significantieniveau. Zoals de tabel laat zien, wanneer u het aantal groepen verhoogt van 2 naar 3, verdrievoudigt het foutenpercentage bijna van 0,05 naar 0,143. En, het wordt snel erger vanaf daar!
Deze foutenpercentages zijn te hoog! Bij het zien van een significant verschil tussen groepen, zou je ernstige twijfels hebben over de vraag of het een vals positief in plaats van een echt verschil.,
Als u 2-steekproef t-tests gebruikt om systematisch alle groepsmiddelen in uw studie te vergelijken, zult u dit probleem tegenkomen. Je zou het significantieniveau voor elke test instellen (bijvoorbeeld 0,05), en dan zal het aantal vergelijkingen het experiment-wise foutenpercentage bepalen, zoals weergegeven in de tabel.
Gelukkig gebruiken post-hoc tests een andere aanpak. Voor deze tests stel je het experiment-wise foutenpercentage in dat je wilt voor de hele set vergelijkingen. Vervolgens berekent de post hoc test het significantieniveau voor alle individuele vergelijkingen die het familywise foutenpercentage opleveren dat u opgeeft.,
begrijpen hoe post hoc tests werken is veel eenvoudiger als je ze in actie ziet. Laten we terug gaan naar ons one-way ANOVA voorbeeld!
voorbeeld van het gebruik van Tukey ‘ s methode met Eenrichtingsanova
voor ons ANOVA voorbeeld hebben we vier groepen die zes vergelijkingen vereisen om alle combinaties van groepen te dekken. We zullen een post hoc test gebruiken en specificeren dat de familie van zes vergelijkingen collectief een familywise foutenpercentage van 0,05 zou moeten produceren. De post hoc test die Ik zal gebruiken is Tukey ‘ s methode., Er zijn een verscheidenheid van post hoc tests kunt u kiezen uit, maar Tukey ‘ s methode is de meest voorkomende Voor het vergelijken van alle mogelijke groep koppelingen.
Er zijn twee manieren om post-hoc testresultaten te presenteren: aangepaste p-waarden en gelijktijdige betrouwbaarheidsintervallen. Ik zal ze beiden beneden laten zien.
gecorrigeerde P-waarden
de tabel hieronder toont de zes verschillende vergelijkingen in onze studie, het verschil tussen groepsgemiddelde en de gecorrigeerde p-waarde voor elke vergelijking.,
De aangepaste p-waarde identificeert de groepsvergelijkingen die significant verschillen, terwijl het familiefoutenpercentage wordt beperkt tot uw significantieniveau. Vergelijk eenvoudig de aangepaste p-waarden met uw significantieniveau. Wanneer de aangepaste p-waarden lager zijn dan het significantieniveau, is het verschil tussen deze groepsgemiddelden statistisch significant. Belangrijk, dit proces controleert de familie-wise foutenpercentage om uw significantieniveau. We kunnen erop vertrouwen dat deze hele reeks vergelijkingen samen een foutenpercentage van 0,05 heeft.,
in de bovenstaande uitvoer is alleen het D-B-verschil statistisch significant bij gebruik van een familiefoutenpercentage van 0,05. Het gemiddelde verschil tussen deze twee groepen is 9,5.
gelijktijdige betrouwbaarheidsintervallen
de andere manier om post-hoc testresultaten te presenteren is door gelijktijdige betrouwbaarheidsintervallen van de verschillen tussen gemiddelden te gebruiken. Bij een individuele test komen de resultaten van de hypothesetest met een significantieniveau van α overeen met betrouwbaarheidsintervallen met een betrouwbaarheidsniveau van 1 – α. Bijvoorbeeld, hypothesen testen met een significantieniveau van 0.,Komen overeen met 95% betrouwbaarheidsintervallen.
bij post hoc tests gebruiken we een gelijktijdig betrouwbaarheidsniveau in plaats van een individueel betrouwbaarheidsniveau. Het gelijktijdige betrouwbaarheidsniveau geldt voor de hele familie van vergelijkingen. Met een 95% simultaan betrouwbaarheidsniveau, kunnen we 95% zeker zijn dat alle intervallen in onze set van vergelijkingen de werkelijke populatie verschillen tussen groepen bevatten. Een foutenpercentage van 5% komt overeen met 95% gelijktijdige betrouwbaarheidsintervallen.
Tukey simultane CIs voor ons One-Way ANOVA voorbeeld
laten we naar de betrouwbaarheidsintervallen gaan., Terwijl de tabel hierboven toont deze CIs numeriek, ik hou van de grafiek hieronder, omdat het zorgt voor een eenvoudige visuele beoordeling, en het biedt meer informatie dan de aangepaste p-waarden.
nul geeft aan dat de middelen van de groep gelijk zijn. Wanneer een betrouwbaarheidsinterval geen nul bevat, is het verschil tussen dat paar groepen statistisch significant. In de grafiek is alleen het verschil tussen D – B significant. Deze CI resultaten komen overeen met de hypothesen testresultaten in de vorige tabel., Ik geef de voorkeur aan deze CI resultaten omdat ze ook aanvullende informatie geven die de aangepaste p-waarden niet weergeven.
deze betrouwbaarheidsintervallen geven waarden die waarschijnlijk het werkelijke populatieverschil tussen groepen paren bevatten. Zoals bij alle CIs, onthult de breedte van het interval voor het verschil de precisie van de schatting. Smallere intervallen suggereren een nauwkeuriger schatting. En, kunt u beoordelen of het volledige bereik van waarden is praktisch significant., Vergeet niet dat statistische significantie niet noodzakelijkerwijs aangeeft dat de resultaten betekenisvol zijn in de echte wereld.
wanneer het interval te breed (onnauwkeurig) is om nuttig te zijn en/of het bereik verschillen bevat die praktisch niet significant zijn, hebt u reden om te aarzelen voordat u beslissingen neemt op basis van de resultaten.
Post Hoc Tests en de statistische Power Tradeoff
Post hoc tests zijn geweldig voor het controleren van het familie-wise foutenpercentage. Veel teksten zouden op dit punt stoppen. Echter, een afweging vindt plaats achter de schermen., Je moet je ervan bewust zijn, want je zou in staat zijn om het effectief te beheren. De afweging is als volgt:
Post-hoctests controleren het foutenpercentage in het experiment door het statistische vermogen van de vergelijkingen te verminderen.
Hier is hoe dat werkt en wat het betekent voor je studie.
om het door u opgegeven familiefoutenpercentage te verkrijgen, moeten post-hocprocedures het significantieniveau voor alle individuele vergelijkingen verlagen. Om bijvoorbeeld voor een reeks vergelijkingen een foutenpercentage voor de familie van 5% te bereiken, gebruikt de procedure een nog lager niveau van individuele significantie.,
naarmate het aantal vergelijkingen toeneemt, moet de post-hocanalyse het individuele significantieniveau nog verder verlagen. Voor onze zes vergelijkingen maakt Tukey ‘ s methode gebruik van een individueel significantieniveau van ongeveer 0,011 om het familie-wise foutenpercentage van 0,05 te produceren. Als onze ANOVA meer vergelijkingen nodig had, zou het nog lager zijn.
Wat is het probleem met het gebruik van een lager individueel significantieniveau? Lagere significantieniveaus komen overeen met een lager statistisch vermogen., Als er in de populatie een verschil bestaat tussen de middelen van de groep, is het minder waarschijnlijk dat een studie met een lager vermogen dit verschil detecteert. Je zou belangrijke bevindingen kunnen missen!
het vermijden van deze vermogensreductie is de reden waarom veel studies een individueel significantieniveau van 0,05 in plaats van 0,01 gebruiken. Helaas, met slechts vier groepen, is ons voorbeeld post hoc test gedwongen om het lagere significantieniveau te gebruiken.
Key Takeaway: hoe meer groepsvergelijkingen u maakt, hoe lager de statistische kracht van deze vergelijkingen.,
gerelateerd bericht: inzicht in statistisch vermogen
het vermogen in Post-Hoctests beheren door het aantal vergelijkingen te verminderen
een methode om deze afweging te beperken is door het aantal vergelijkingen te verminderen. Met deze reductie kan de procedure een groter individueel foutenpercentage gebruiken om het familiefoutenpercentage te bereiken dat u opgeeft—waardoor het statistische vermogen toeneemt.
in dit artikel heb ik geschreven over het uitvoeren van alle paarsgewijze vergelijkingen—die alle mogelijke groepkoppelingen vergelijkt., Hoewel dit de meest voorkomende aanpak is, stapelt het aantal contrasten zich snel op! Afhankelijk van het doel van je studie hoef je echter niet alle mogelijke groepen te vergelijken.
uw studie hoeft om verschillende redenen mogelijk slechts een deel van alle mogelijke vergelijkingen te vergelijken. Ik zal twee veel voorkomende redenen behandelen en je laten zien welke post hoc tests je kunt gebruiken. In de volgende voorbeelden, zal ik alleen de betrouwbaarheidsinterval grafieken en niet de hypothese testresultaten weer te geven. Merk op hoe deze andere methoden minder vergelijkingen maken (3 en 4) voor onze voorbeelddataset dan Tukey ‘ s method (6).,
terwijl u uw studie ontwerpt, is het van cruciaal belang dat u vooraf de methode voor meervoudige vergelijkingen definieert die u zult gebruiken. Probeer niet verschillende methoden, en kies dan degene die de meest gunstige resultaten produceert. Dat is data baggeren, en het kan leiden tot valse bevindingen. Ik gebruik meerdere post hoc tests op een enkele dataset om te laten zien hoe ze verschillen, maar dat is geen geschikte praktijk voor een echte studie. Definieer uw methodologie van tevoren, met inbegrip van een post hoc analyse, voordat het analyseren van de gegevens, en vasthouden aan het!,
Key Takeaway: als het mogelijk is, Vergelijk een subset van groepen om uw statistische kracht te vergroten.
voorbeeld van het gebruik van de methode van Dunnett om behandelingsgroepen te vergelijken met een controlegroep
als uw studie een controlegroep en meerdere behandelingsgroepen heeft, hoeft u de behandelingsgroepen mogelijk alleen met de controlegroep te vergelijken.
Gebruik de methode van Dunnett als de volgende waarden waar zijn:
- voor de studie weet u welke groep (controlegroep) u wilt vergelijken met alle andere groepen (behandelingen).
- u hoeft de behandelingsgroepen niet met elkaar te vergelijken.,
laten we Dunnett ‘ s methode gebruiken met ons voorbeeld eenrichtingsanova, maar we zullen het scenario enigszins aanpassen. Stel dat we momenteel Materiaal A gebruiken. we hebben dit experiment uitgevoerd om de alternatieve materialen (B, C en D) ermee te vergelijken. Materiaal A zal onze controlegroep zijn, terwijl de andere drie de behandelingen zijn.
met behulp van de methode van Dunnett zien we dat alleen het B – A verschil statistisch significant is omdat het interval nul niet omvat. Met behulp van Tukey ‘ s methode, deze vergelijking was niet significant., De extra macht die we kregen door minder vergelijkingen te maken, kwam voor ons door. Aan de andere kant, in tegenstelling tot Tukey ’s methode, vindt Dunnett’ s methode niet dat het D – B verschil significant is omdat het de behandelingsgroepen niet met elkaar vergelijkt.
voorbeeld van het gebruik van Hsu ‘ s MCB om het sterkste materiaal te vinden
als het doel van uw studie is om de beste groep te identificeren, hoeft u mogelijk niet alle mogelijke groepen te vergelijken. Hsu ‘ s Multiple comparison to the Best (MCB) identificeert de groepen die de beste zijn, onbeduidend verschillen van de beste, en significant verschillen van de beste.,
gebruik Hsu ‘ s MCB als u:
- niet van tevoren weet welke groep u wilt vergelijken met alle andere groepen.
- hoeft groepen die niet de beste zijn niet te vergelijken met andere groepen die niet de beste zijn.
- kan “de beste” definiëren als de groep met het hoogste of het laagste gemiddelde.
Hsu ‘ s MCB vergelijkt elke groep met de groep met het beste gemiddelde (hoogste of laagste). Met behulp van deze procedure, je zou kunnen eindigen met verschillende groepen die niet significant verschillen van de beste groep., Houd er rekening mee dat de groep die echt het beste is in de gehele populatie misschien niet het beste steekproefgemiddelde heeft als gevolg van bemonsteringsfout. De groepen die niet significant verschillen van de beste groep kunnen zo goed zijn als, of zelfs beter dan, de groep met het beste steekproefgemiddelde.
gelijktijdige betrouwbaarheidsintervallen voor Hsu ‘ s MCB
voor onze eenrichtingsanova willen we het materiaal gebruiken dat de sterkste delen produceert. Daarom gebruiken we Hsu ‘ s MCB en definiëren we het hoogste gemiddelde als het beste. We geven niet om alle andere mogelijke vergelijkingen.,
Groep D is de beste groep in het algemeen omdat deze het hoogste gemiddelde heeft (41.07). De procedure vergelijkt D met alle andere groepen. Voor Hsu ‘ s MCB is een groep significant beter dan een andere groep wanneer het betrouwbaarheidsinterval nul als eindpunt heeft. Uit de grafiek kunnen we zien dat materiaal D significant beter is dan B en C. Echter, de A-D vergelijking bevat nul, wat aangeeft dat A niet significant verschilt van de beste.
Hsu ‘ s MCB bepaalt dat de kandidaten voor de beste groep A en D., D heeft het hoogste steekproefgemiddelde en A is niet significant verschillend van D. anderzijds, sluit de procedure effectief uit dat B en C de beste zijn.
samenvatting van het gebruik van meerdere Vergelijkingsmethoden
in deze blogpost hebt u gezien hoe de Omnibus ANOVA-test bepaalt of de middelen in het algemeen verschillend zijn, maar het identificeert geen specifieke groepsverschillen die statistisch significant zijn.
Als u significante ANOVA-resultaten behaalt, gebruik dan een post-hoc test om de gemiddelde verschillen tussen paren van groepen te onderzoeken.,
u hebt ook geleerd hoe het controleren van het experiment-wise foutenpercentage een cruciale functie is van deze post-hoc testen. Deze familie foutenpercentages groeien in een verrassend tempo!
ten slotte, als u niet alle paarsgewijze vergelijkingen hoeft uit te voeren, is het de moeite waard om alleen een subset te vergelijken, omdat u meer statistische macht zult behouden.
als je leert over het testen van hypothesen en de aanpak die ik gebruik in mijn blog, kijk dan op mijn eBook!