utveckla en Weibull Modell förlängning för att uppskatta Cancer latens

Abstrakt

den matematiska modellen diskuteras i detta dokument presenterar en teknik för att uppskatta längden på cancer tysta tillväxtperioden. Den beskrivna metoden använder information som erhållits från observerad cancerincidens för att rekonstruera vad som försiktigt tros vara tidsperioden från malign cancerinitiering till diagnos. Analyser visar en minskande risk för cancer som indikerar att ju längre en patient överlever, desto mer sannolikt är de att nå den övre gränsen för sin naturliga livslängd., Baserat på tidigare forskning har Weibull-distributionen använts för att beskriva mekanismerna för cancerutveckling. I motsats till den minneslösa exponentiella fördelningen som förutsätter en konstant felfrekvens, är formen på Weibull-fördelningen beroende av tidigare händelser och bevarar ett minne om tidigare överlevnad. Detta ger ett enkelt men kraftfullt sätt att karakterisera hur den obemärkta erfarenheten av cancer relaterar till den observerade som en funktion för att uppskatta tiden mellan Start och diagnos., Resultaten indikerar ett tillfälle för tidigt ingripande när cancer är mest behandlingsbar. Den metod som presenteras ger användbar information för att identifiera cancerformer med hög dödlighet och långvariga perioder av oupptäckt tillväxt för att skilja typer av allvarliga folkhälsoproblem.

1. Inledning

Överlevnadsanalysstatistik i cancerforskning rapporteras ofta när det gäller individuell överlevnad från diagnosens gång. Vid användning av cancer registerdata är den sanna tiden då maligna cancerceller utvecklas i kroppen okänd eftersom det ofta inte finns någon indikation., De telltale tecken och symtom som är karakteristiska för cancer kan vara månader, om inte år, bort. Orsaksfaktorer kan verka i följd för att initiera eller främja cancerframkallande ämnen, och tio eller flera år passerar ofta mellan exponering för yttre faktorer och detekterbar cancer . Mer än en tredjedel av alla amerikaner kommer att diagnostiseras med cancer någon gång i sina liv. Även om deras sjukdom kan vara osynlig nu, presenterar den en stor, och i stor utsträckning unexamined, möjlighet att hitta och behandla sina cancerformer tidigt ., Tidig upptäckt representerar en av de mest lovande metoderna för att minska den växande cancerbördan genom att identifiera cancer medan den är lokaliserad och härdbar, vilket förhindrar inte bara dödlighet utan också minskar sjuklighet och kostnader .

Tvåparametern Weibull distribution är en populär livstidsmodell som ofta används i biomedicinsk överlevnadsanalys för att beskriva åldersspecifik dödlighet och felfrekvens ., Eftersom Weibullfördelningen inte gör några antaganden om formen av den underliggande riskfördelningen, i kombination med dess flexibilitet att modellera ökande och minskande farofunktioner, har den använts framgångsrikt i många tillämpningar som en rent empirisk modell, även i fall där det finns liten eller ingen teoretisk motivering . Forskning utförd av Kravchenko et al. och Manton et al. utnyttjade en femparameterversion av den svaga modellen med en Weibull-baslinje för att karakterisera cancerframkallande mekanismer, inklusive lag-perioden (dvs,, perioden mellan förekomsten av den första maligna cancercellen och datumet för cancerstart) för utvalda cancerhistotyper. Mdzinarishvili och Sherman använde Armitage-Doll-modellen och drog slutsatsen att data om cancerincidensfrekvens överensstämmer med en Weibull-modell av karcinogenes justerad för åldern för initial exponering.

i det här dokumentet beskriver vi en metod som använder den populära Tvåparametermodellen Weibull som dess ram och utvecklar en villkorlig Weibull överlevnadsmodell som står för antagandet att individen överlevde fram till diagnostiden., Med hjälp av enkla linjära regressionsmetoder använder vi information som erhållits från observerade incidensdata för att uppskatta längden på cancerlatensperioden. När farofrekvensen ändras över tiden är sannolikheten för misslyckande beroende av tiden, och Weibull-distributionen möjliggör ett ”minne” av tidigare överlevnadstid för en observation . Weibull modell förlängning ger information-driven och befolkningsnivå slutsatser om cancer latenstid för att bidra till att utveckla effektiva och praktiska screening riktlinjer och identifiera områden för förbättring.

2. Metoder

2.1., Introduktion till överlevnadsanalys

den statistiska analysen av livstidsdata är ett viktigt ämne inom många områden, inklusive biomedicin, teknik och samhällsvetenskap . Överlevnadsanalys innebär i allmänhet modellering av tid till händelse data där resultatet är tiden tills misslyckande från någon sjukdom eller tillstånd. Försökspersoner som kommer in i studien vid olika tidpunkter har olika längder av uppföljning för den observerade feltiden., Ett kännetecken för överlevnadsanalys är att den framgångsrikt innehåller information från censurerade och stympade eller ofullständiga observationer som gör den till den mest praktiska metoden för typ av analys.

2.2. Att uppskatta Överlevnadsfunktionen

begreppen överlevnad och fara är avgörande för att förstå överlevnadsanalysen. Överlevnadskurvan uttrycker den kumulativa effekten av de risker som en individ står inför, och farofunktionen karakteriserar förändringshastigheten för överlevnadsfunktionen över tiden., Detta indikerar att där överlevnaden snabbt minskar är risken hög; om överlevnadskurvan är konstant är faran noll .

låt oss anta att det är en icke-negativ kontinuerlig slumpvariabel som representerar livstiden för individer i någon population. Överlevnadstid kan uttryckas som längden på tiden från cancerinitiering till cancerspecifik död, när döden uppstår. Det antas också att överlevnadstiden är oberoende och den censureringsmekanism som uppstår är uninformativ., Överlevnadsfunktionen,, används för att uppskatta sannolikheten för att överleva bortom tiden, enligt följande: överlevnadsfunktionen är en monoton minskar kontinuerlig funktion där och . Det antas i början av studien att alla ämnen är levande och i tid lika med , och sannolikheten för överlevnad är 0 eftersom så småningom alla personer måste ge efter för döden.,

farofunktionen, betecknad med, ger den momentana risken att dö i tid, eftersom händelsen ännu inte har inträffat och kan definieras som farofunktionen beskriver hur risken för fel varierar med tiden och ger ett användbart verktyg för att förstå den underliggande fördelningen av överlevnadstiden . Till exempel, om betecknar tiden från cancer initiering till död från cancer och motsvarande farofunktion , minskar med tiden, den villkorliga sannolikheten att dö av cancer minskar varje månad patienten överlever, med tanke på överlevnad fram till tidpunkten för intresse.,

För att uppskatta överlevnadsfunktionen användes Kaplan-Meier product-limit estimator-metoden. Denna metod är en icke-parametrisk maximum likelihood estimator av överlevnadsfunktionen används för att uppskatta överlevnads sannolikheter som en funktion av tid. Denna metod är gynnsam eftersom det inte gör något antagande om den underliggande fördelningen av överlevnadstiden och har blivit det vanligaste tillvägagångssättet för överlevnadsanalys i medicin ., Denna metod fungerar genom att uppskatta överlevnadssannolikheten vid varje intervall med hjälp av antalet patienter som överlevde, dividerat med antalet riskpatienter. Vid varje intervall anses patienter vara ”i riskzonen” om de ännu inte har upplevt händelsen. Patienter förlorade till uppföljning, eller rätt censurerade, är undantagna från” i riskzonen ” poolen. Slutligen beräknas sannolikheten att överleva till någon tidpunkt med hjälp av den kumulativa sannolikheten att överleva var och en av de föregående tidsintervallen.

vi antar ett urval av oberoende observationer med tillgängliga överlevnadstider betecknade med ., Att låta vara de beställda feltiderna, Kaplan-Meier-estimatorn kan definieras som här, representerar antalet individer som riskerar att dö strax före tiden, inklusive de som kommer att dö i tid , och är antalet dödsfall som observeras vid tiden . Vid en viss tidpunkt är den observerade sannolikheten för död . De icke-parametriska Kaplan-Meier-uppskattningarna av överlevnadsfunktionen användes för att utveckla en log survival time-modell och en log-log survival time-modell., Parametervärdena för de linjära regressionsmodellerna användes för att approximera latensperioden som diskuteras ytterligare i avsnitt 2.4.

2.3. Weibull Distribution

Weibull-modellen används i stor utsträckning i överlevnadsanalys och har visat sig passa data som involverar tid till utseende av tumörer eller död hos djur som utsätts för cancerframkallande förolämpningar över tiden . Pike och Peto och Lee gav en teoretisk motivation för tillämpningen av Weibull-modellen för att passa data som involverar tiden fram till utseendet av en tumör eller död hos djur som utsätts för cancerframkallande förolämpningar över tiden .,

som tidigare nämnts antar vi att observationer är tillgängliga på de oberoende feltiderna för individer där representerar tiden fram till misslyckande. Låt vara en Weibull slumpvariabel som representerar feltiden för en godtycklig individ. Sannolikhetsfördelningen av kan beskrivas av sannolikhetsdensitetsfunktionen (pdf), så att motsvarande Weibull överlevnadsfunktion är olika värden för formparametern,, kan ha en signifikant effekt på beteendet hos Weibullfördelningen och till och med få den att minska till andra distributioner ., Om fördelningen minskar till exponentiell fördelning som förutsätter konstant fara under en livstid och är minnesfri. Den minnelösa egenskapen indikerar att en framtida händelse, mätt från ett ögonblick i tid, förväntas inträffa i tid oavsett när den sista händelsen inträffade .

när sannolikheten för överlevnad vid varje successiv är beroende av tidigare överlevnad, och Weibull-fördelningen behåller ett ”minne” av tidigare överlevnadstider. Typiska värden varierar beroende på applikationen; distributioner med i intervallet 0,5 till 3 är dock lämpliga ., I denna analys fann vi att det indikerar en minskande fara. Detta indikerar att distributionens form för de observerade överlevnadsfeltiderna är en funktion av den underliggande fördelningen för de obehindrade överlevnadstiderna, vilket gör det möjligt för oss att uppskatta längden på cancerlatensperioden.

2, 4. Weibull Model Extension

utnyttja villkorlig sannolikhetsteori och den populära två-parameter Weibull modell som vår ram, vi utvecklat en matematisk modell för att ta hänsyn till antagandet om individuell överlevnad fram till tidpunkten för diagnos., Genom att införa denna ytterligare parameter och utnyttja Minnesegenskapen för Weibull-distributionen återställer vi vad vi försiktigt tror är tiden mellan cancerinitiering och diagnos. Med hjälp av information från observerade incidensdata tillgängliga från cancer register, vår analys visade att Weibull form parameter,, var strikt mindre än 1 för alla cancerformer. Eftersom farofunktionen minskar med tiden har distributionen ett starkt minne om tidigare överlevnadstider vilket är en avgörande faktor i denna analys.,

För att illustrera händelsernas tidslinje presenterar Figur 1 ett diagram över successionen av cancerhändelser. Den första händelsen som ska inträffa är initiering av sjukdom, den andra händelsen är cancerdiagnosen där fallet rapporteras till det lokala cancerregistret, och den tredje händelsen är dödstiden eller studiens slutpunkt. Latensperioden definieras som tiden mellan cancerinitiering och diagnos, som vi försöker uppskatta. Individens sanna livstid kan representeras av tiden från cancerinitiering till döden.,

Figur 1

tidslinje för händelser som visar de obemärkta och observerade perioderna av cancer som börjar vid tidpunkten för sjukdomsinitiering.,

med hjälp av Weibull överlevnadsfunktion i (5) som utgångspunkt, den villkorliga sannolikheten att överleva bortom tiden, med tanke på patientens överlevnad fram till tidpunkten för diagnos , kan representeras av funktionen i denna modell, längden på latensperioden betecknas med lag-parametern, formparametern och skalparametern,. Var och en representerar den tid som en individ observerades från tiden för cancerdiagnos till cancerspecifik död eller studiens slutpunkt.

2, 5., Uppskattning av modellparametrar

Kaplan-Meier-metoden användes för att uppskatta överlevnadssannolikheterna som användes som resultatvariabel i vår modell. För denna analys använder vi linjära regressionsmetoder för att uppskatta Weibull-modellparametrarna på grund av deras beräkningsmässiga enkelhet och enkel grafisk tolkning . Weibull-modellen har den viktigaste egenskapen att ln (- ln) är linjär med ln där regressionsekvationen har lutning och avlyssning, ln ().,

med hjälp av de metoder som skisseras av Nadler och Zurbenko, det ungefärliga sannolikhetsvärdet för latensperioden,, kan uppskattas med hjälp av följande formel: denna funktion representerar den tid då log-transformerade överlevnadsuppskattningen, regressed on , motsvarar korrigeringsfaktorn ., För att hitta värdet av, vi rita log negativa loggen av theKaplan-Meier uppskattningar mot den naturliga loggen av tid och bestämma lutningen av regressions ekvationen för att bestämma modellparametrarna, och log-transformerade villkorliga Kaplan-Meier uppskattningar regressed i tid med avlyssning,, och lutning , ger denna approximation ett enkelt och snabbt sätt att uppskatta latens cancer period när farofrekvensen ändras över tiden.

2.6., Data

månatliga observationer av nydiagnostiserade fall av cancer hos vuxna i USA erhölls för perioden 1973-2008 tillgängliga genom programmet övervakning, epidemiologi och slutresultat (SEER). SEER är ett nationellt register för cancerformer som beställs av National Cancer Institute som började upprätthålla register över patienter med cancer i 1973 . Från denna dataset användes cancerplats, diagnosdatum, sammanfattande Stadium, tumörsekvensnummer och vital status i analysen.,

de typer av cancer som valts för denna analys var begränsade till de med hög dödlighet och begränsad tillgång till effektiva behandlingsalternativ som gör att sjukdomen kan följa sin naturliga kurs, vilket minimerar potentiella fördomar. Hög dödlighet maximerar mängden information som är känd för forskaren, vilket möjliggör mer exakta uppskattningar. Totalt valdes 6 in situ och invasiva primära cancerformer och analyserades med en total provstorlek på 556 696. Dessa cancerformer inkluderar akut myeloisk leukemi, hjärna, lever, lunga och bronkus, bukspottkörtel och mage., Händelser övervägdes i fall där dödsorsaken var cancerspecifik.

3. Resultat och diskussion

den villkorliga överlevnadsplanen i Figur 2 tyder på att Weibull-formparametern,, minskar och sedan stabiliseras över tiden för alla cancertyper som verifierar att Weibull-distributionen möjliggör ett minne av tidigare överlevnadsobservationer. Överlevnadskurvorna indikerar att risken för misslyckande minskar över tiden vilket kan hänföras till svaga individer som dör snabbt efter diagnos och starkare individer som överlever under långa perioder., Melanom har den högsta överlevnadsgraden med 80% av patienterna som överlever 30 år efter diagnosen. Bröstcancer har också en relativt hög 30-års överlevnad med 58% av patienterna överlevande 30 år efter diagnos. Lungcancer har en dyster prognos med 6,4% av patienterna som överlever 30 år efter diagnos; bukspottskörtelcancer är likartad med 98% av patienterna som dör inom trettio års diagnos.,

Figur 2

observerade villkorliga överlevnad tomter med Weibull form parameter för melanom, bröst, lunga, och pankreascancer.

tidig diagnos av cancer kan uppstå från ökade screeningmetoder och kan förändra den naturliga sjukdomsförloppet. Samlingen av SEER-data började 1973, och tillgången på cancerscreenings och effektiva behandlingar för bröst-och melanomcancer har ökat dramatiskt under de senaste 20 åren., I vissa fall kan rutinundersökningar identifiera skador hos patienter som annars aldrig har diagnostiserats under sin livstid. Dessa fördomar, känd som bly-Time bias och overdiagnosis bias, kan störa vår förmåga att generalisera resultat från ett prov till befolkningen. I ett försök att undvika dessa potentiella fördomar uteslöts cancer med låga dödstal och kända behandlingskurser (dvs. bröst-och melanom) från denna analys.,

i Figur 3 visas en grafisk representation av metoden där den ungefärliga uppskattningen används för att bestämma tiden mellan lungcancerinitiering och diagnos för alla stadier av sjukdomen kombinerad. Parametern Weibull form för all-stage lungcancer var 0,57, och korrektionsfaktorn var 0,735. Genom att utvidga den linjära regressionsekvationen till punkt 0.735 på axeln uppskattar vi latensperioden för lungcancer till 13.6 år. Uppskattningarna av modellparametrar erhölls med hjälp av (7), (8) och (9)., Sammantaget fann vi Weibull regressionsmodellen som passade data anmärkningsvärt bra med ett genomsnittligt kvadratiskt värde på 93,3. Modellen residuals fördelades slumpmässigt om regressionslinjen som tyder på inga underliggande trender.

Figur 3

uppskatta den ungefärliga tiden för lungcancerinitiering med Weibull-modellförlängningen.,

tillämpa Weibull modell förlängning till en delmängd av cancer i SEER data, vi bestämde längden på latensperioden och presenterade dessa uppskattningar i Figur 4. Observera att dessa uppskattningar är stratifierade av cancer typ men inkluderar alla steg i kombination. Modellen kan stratifieras ytterligare vid behov, så länge som provstorlekarna förblir stora. I Figur 4 har akut myeloisk leukemi den längsta uppskattade latensperioden på 25,75 år, magkreft har den näst längsta latensperioden på 22.,86 år, och hjärncancer har en uppskattad latensperiod på 21,87 år. Pankreas -, lever-och lungcancer har relativt korta latensperioder som sträcker sig från 8,59 år till 13,57 år. Dessa cancerformer diagnostiseras ofta i sena stadier när prognosen är dålig och risken för långsiktig överlevnad är dyster. Även om dessa uppskattningar kanske inte är riktigt exakta eftersom de är en matematisk approximation, ger de en meningsfull rankning av cancer med de längsta perioderna av oupptäckt tillväxt.,

Figur 4

uppskattat intervall mellan första cancerrelaterad mutation och diagnos som erhållits med hjälp av Weibull-modellförlängningen.

en biologisk studie publicerad i naturen samlade genetiska material från 7 patienter som dog av cancer i slutstadiet i bukspottskörteln och bestämde tidpunkten för karcinogenes. Forskare fann att det tog 11,7 år i genomsnitt för en mogen bukspottskörteltumör att bildas efter utseendet av den första cancerrelaterade mutationen i en bukspottskörtelcell. Ytterligare 6.,8 år gick i genomsnitt innan den primära tumören skickade ut en metastatisk lesion till ett annat organ. Från den tiden dog patienten i genomsnitt 2,7 år. Totalt har mer än 20 år förflutit mellan utseendet på den första muterade bukspottskörtelcellen och döden . Uppskattningen som erhållits med hjälp av Weibull – modellförlängningen indikerar att 8.59 år gick i genomsnitt från tidpunkten för cancerinitiering till diagnos för patienter med all-stage pankreascancer i kombination.

Som tidigare nämnts, Manton et al., utnyttjade femparameterversionen av den svaga modellen med en Weibull-baslinje för att undersöka förhållandet mellan heterogeniteten i åldersrelaterade mönster av cancerincidens och mekanismerna för karcinogenes. De uppskattningar som erhållits för” lag ” – perioden mellan förekomsten av den första maligna cancercellen och datumet för cancerstart för utvalda cancerhistotyper visas i Tabell 1 och .,


Cancer type	Lag estimate (years)

Liver 817	21.2 ± 2.3
Lung and bronchus 804	19.8 ± 5.8
Lung and bronchus 807	15.3 ± 6.2
Lung and bronchus 814	19.3 ± 4.0
Pancreas 814	14.8 ± 9.,4

Tabell 1

Beräknad fördröjning bestämd av Manton et al. för utvalda cancerhistotyper.

totalt sett överensstämmer våra resultat med de som erhållits av Manton et al. ; men exakt jämförelse är inte möjlig eftersom forskarna ger histotypespecifika uppskattningar och mätperioderna kanske inte är exakta. En annan faktor som gör jämförelsen svår är den” lag ” som Manton et al., representerar perioden mellan förekomsten av den första maligna cancercellen och canceruppkomsten. Vår uppskattning återspeglar perioden mellan cancerstart och diagnos, vilket kan eller kanske inte är ekvivalent.

för lung-och bronkcancer faller våra resultat inom de uppskattningar som anges i Tabell 1. Vi uppskattar att 13.57 år gått från cancerinitiering till diagnos för alla stadier och histotyper av lungcancer i kombination. Resultat erhållna av Manton et al. sträcker sig från en fördröjning av år och år för lungcancer histotyper 804, 807 och 814. Manton et al., uppskattningsår passerade i genomsnitt mellan förekomsten av den första maligna cancercellen och canceruppkomsten för bukspottskörtelcancer. Våra resultat för pankreascancer faller i linje med de av Manton et al. och föreslår att 8,59 år gick mellan cancerinitiering och diagnos. Latensskattningen för levercancer indikerar att 10,81 år förflutit från cancerinitiering till diagnos som faller något utanför det område som föreslagits av Manton et al. år., Denna skillnad kan bero på jämförelse av alla histotyper till en specifik histotyp samt eventuella skillnader i mätning av cancerframkallande perioder som tidigare nämnts.

i detta dokument presenteras en ny algoritm som använder överlevnadsinformation som erhållits strikt efter sjukdomsdiagnos för att uppskatta vad vi försiktigt tror är tiden mellan cancerstart och diagnos. Förmågan att ”spåra” fortskridandet av tidigare överlevnadshistorier är beroende av riskens form som ökar eller minskar över tiden., Sammantaget indikerar vår kvantitativa analys att det finns ett stort fönster för möjlighet till diagnos medan sjukdomen fortfarande är i det härdande skedet. Även om Weibull – modellförlängningen kanske inte ger exakta uppskattningar eftersom det är en approximationslösning, tillåter det utan tvekan det medicinska samhället att identifiera cancertyper genom att öka risken för att skilja de ”tysta mördarna” med långa oupptäckta perioder av tillväxt och en hög risk för död., Genom att göra denna information tillgänglig presenterar vi en mängd möjligheter till ny forskning om tidig upptäckt och förebyggande screening, vilket förbättrar sjukdomsprognosen. De främsta fördelarna med den villkorliga Weibull-modellen är dess enkelhet, med endast enkla linjära regressionsmetoder och förmåga att tillåta ytterligare forskning av medicinska problem genom matematisk modellering.