Site Overlay

udvikling af en Extensioneibull-Modeludvidelse til estimering af Kræftforsinkelse

abstrakt

den matematiske model, der er diskuteret i denne artikel, præsenterer en teknik til at estimere længden af kræftens tavse vækstperiode. Den beskrevne metode anvender information opnået fra observeret kræftincidens til at rekonstruere, hvad der forsigtigt antages at være perioden fra malign kræftinitiering til diagnose. Analyser viser en faldende risiko for kræft, der indikerer, at jo længere en patient overlever, jo mere sandsynligt er det, at de når den øvre grænse for deres naturlige levetid., Baseret på tidligere forskning er distributioneibull-distributionen blevet brugt til at beskrive mekanismerne for kræftudvikling. I modsætning til den memoryless eksponentiel fordeling, som antager en konstant fejlrate, formen af distributioneibull fordeling er afhængig af tidligere begivenheder og bevarer en hukommelse af tidligere overlevelse. Dette giver en enkel, men effektiv måde at karakterisere, hvordan den uobserverede oplevelse af kræft relaterer til den observerede som en funktion til at estimere tiden mellem begyndelse og diagnose., Resultaterne indikerer et vindue af muligheder for tidlig indgriben, når kræft er mest behandles. Den præsenterede metode giver nyttige oplysninger til at identificere kræftformer med høj dødelighed og langvarige perioder med uopdaget vækst for at skelne mellem typer af alvorlig bekymring for folkesundheden.

1. Introduktion

Overlevelsesanalyse statistik i kræftforskning rapporteres ofte med hensyn til individuel overlevelse fra diagnosetidspunktet. Når man bruger kræftregisterdata, er det rigtige tidspunkt, hvor ondartede kræftceller udviklede sig i kroppen, ukendt, fordi der ofte ikke er nogen indikation., De afslørende tegn og symptomer, der er karakteristiske for kræft, kan være måneder, hvis ikke år, væk. Årsagsfaktorer kan virke i rækkefølge for at indlede eller fremme carcinogenese, og ti eller flere år går ofte mellem eksponering for eksterne faktorer og påviselig kræft . Mere end en tredjedel af alle amerikanere vil blive diagnosticeret med kræft engang i deres liv. Selvom deres sygdom kan være usynlig nu, det giver en stor, og stort set une .amined, mulighed for at finde og behandle deres kræft tidligt ., Tidlig påvisning repræsenterer en af de mest lovende tilgange til at reducere den voksende kræftbyrde ved at identificere kræft, mens den er lokaliseret og helbredes, hvilket forhindrer ikke kun dødelighed, men også reducerer sygelighed og omkostninger .

to-parameter Weieibull distribution er en populær levetidsmodel, der ofte anvendes i biomedicinske videnskabers overlevelsesanalyse til at beskrive aldersspecifik dødelighed og fejlfrekvenser ., Fordi weibullfordeling gør nogen antagelser om form af den underliggende risiko fordeling, kombineret med dens fleksibilitet model stigende og faldende risiko funktioner, det har været anvendt med succes i mange applikationer som en rent empirisk model, selv i tilfælde, hvor der er lidt eller ingen teoretisk begrundelse . Forskning udført af Kravchenko et al. og Manton et al. udnyttet en fem-parameter version af skrøbelighed model med en baselineeibull baseline at karakterisere kræftfremkaldende mekanismer, herunder lag periode (dvs .,, perioden mellem forekomsten af den første maligne kræftcelle og datoen for kræftbegyndelse) for udvalgte kræfthistotyper. MD .inarishvili og Sherman brugte Armitage-Doll-modellen og konkluderede, at data om kræftincidensrate er i overensstemmelse med en carcineibull-model for carcinogenese justeret for alderen for den første eksponering.

i dette papir beskriver vi en metode, der bruger den populære to-parameter modeleibull-model som ramme og udvikler en betinget survivaleibull-overlevelsesmodel, der tegner sig for antagelsen om, at individet overlevede op til diagnosetidspunktet., Ved hjælp af enkle lineære regressionsmetoder bruger vi oplysninger opnået fra observerede incidensdata til at estimere længden af kræftforsinkelsesperioden. Når farehastigheden ændres over tid, er sandsynligheden for fiasko afhængig af tiden, og distributioneibull-fordelingen giver mulighed for en “hukommelse” af tidligere overlevelsestid til en observation . Extensioneibull model e .tension giver information-drevne og befolkning-niveau slutninger om kræft latenstid gange for at hjælpe med at udvikle effektive og praktiske retningslinjer screening og identificere områder til forbedring.

2. Metoder

2.1., Introduktion til Overlevelsesanalyse

den statistiske analyse af levetidsdata er et vigtigt emne på mange områder, herunder biomedicinsk, ingeniørvidenskab og samfundsvidenskab . Overlevelsesanalyse involverer generelt modellering af tid-til-hændelsesdata, hvor resultatet er tiden indtil fiasko fra en eller anden sygdom eller tilstand. Emner, der kommer ind i undersøgelsen på forskellige tidspunkter, har forskellige længder af opfølgning for den observerede fejltid., Et kendetegn ved overlevelsesanalyse er, at den med succes inkorporerer information fra censureret og afkortet eller ufuldstændig, observationer, der gør det til den mest praktiske metode til analysetype.

2.2. Estimering af overlevelsesfunktionen

begreberne overlevelse og fare er afgørende for at forstå overlevelsesanalyse. Overlevelseskurven udtrykker den kumulative virkning af de risici, som et individ står overfor, og farefunktionen karakteriserer forandringshastigheden for overlevelsesfunktionen over tid., Dette indikerer, at hvor overlevelsen hurtigt falder, er faren høj; hvis overlevelseskurven er konstant, er faren nul .

lad os antage, at det er en ikke-negativ kontinuerlig tilfældig variabel, der repræsenterer levetiden for individer i en eller anden befolkning. Overlevelsestid kan udtrykkes som længden af tid fra kræftinitiering indtil kræftspecifik død, når døden opstår. Det antages også, at overlevelsestider er uafhængige, og censurmekanismen, der opstår, er uinformativ., Overlevelsesfunktionen,, bruges til at estimere sandsynligheden for at overleve over tid, , som følger: overlevelsesfunktionen er en monoton faldende kontinuerlig funktion, hvor og . Det antages i starten af undersøgelsen , at alle forsøgspersoner lever og til tiden er lig med, og sandsynligheden for overlevelse er 0, da alle personer til sidst skal bukke under for døden.,

Den fare funktion, der betegnes ved , giver den øjeblikkelige risiko for at dø på tid , i betragtning af, at tilfælde har endnu ikke fundet sted, og kan defineres som Den fare funktion beskriver, hvordan den økonomiske risiko varierer med tiden og giver et nyttigt værktøj til at forstå de underliggende distribution af overlevelse gange . For eksempel, hvis angiver tiden fra kræftinitiering indtil død af kræft og den tilsvarende farefunktion, , falder over tid, den betingede sandsynlighed for at dø af kræft falder hver måned patienten overlever, givet overlevelse op til tidspunktet for interesse.,

for at estimere overlevelsesfunktionen blev Kaplan-Meier product-limit estimator metoden anvendt. Denne metode er en ikke-parametrisk maksimal sandsynlighedsestimator for overlevelsesfunktionen, der bruges til at estimere overlevelsessandsynligheder som en funktion af tiden. Denne metode er gunstig, da den ikke antager den underliggende fordeling af overlevelsestiderne og er blevet den mest almindeligt anvendte tilgang til overlevelsesanalyse inden for medicin ., Denne metode virker ved at estimere overlevelsessandsynligheden ved hvert interval ved hjælp af antallet af patienter, der overlevede, divideret med antallet af patienter i fare. Ved hvert interval anses patienter for at være “i fare”, hvis de endnu ikke har oplevet begivenheden. Patienter, der er tabt til opfølgning eller højre censureret, er udelukket fra puljen “i fare”. Endelig estimeres sandsynligheden for at overleve til et hvilket som helst tidspunkt ved hjælp af den kumulative sandsynlighed for at overleve hvert af de foregående tidsintervaller.

Vi antager en prøve af uafhængige observationer med tilgængelige overlevelsestider betegnet med ., At lade være de bestilte fejltider, Kaplan-Meier estimatoren kan defineres som her, repræsenterer antallet af personer , der risikerer at dø lige før tiden , herunder dem, der vil dø til tiden, og er antallet af dødsfald observeret på tidspunktet . På et bestemt tidspunkt er den observerede Sandsynlighed for død. De ikke-parametriske Kaplan-Meier estimater af overlevelsesfunktionen blev brugt til at udvikle en log overlevelsestidsmodel og en log-log overlevelsestidsmodel., Parameteren værdier for den lineære regression modeller blev anvendt til at tilnærme latenstid periode, som er yderligere omtalt i afsnit 2.4.

2, 3. Distributioneibull Distribution

modeleibull-modellen anvendes i vid udstrækning i overlevelsesanalyse og har vist sig at passe til data, der involverer tiden til udseende af tumorer eller død hos dyr, der er udsat for kræftfremkaldende fornærmelser over tid . Gedder og Peto og Lee gav en teoretisk motivation for anvendelse af Weibull model passer til data, der omfatter tiden indtil fremkomsten af en tumor eller død hos dyr, der udsættes for kræftfremkaldende fornærmelser over tid .,

som tidligere nævnt antager vi, at observationer er tilgængelige på de uafhængige fejltider for enkeltpersoner, hvor repræsenterer tiden indtil fiasko. Lad være en randomeibull tilfældig variabel, der repræsenterer den manglende tid af en vilkårlig person. Fordelingen kan beskrives ved sandsynlighedstæthedsfunktionen (pdf), således at De tilsvarende Weibull overlevelse funktion er Forskellige værdier i form parameter , som kan have en betydelig effekt på adfærd i Weibull-fordelingen, og endda få det til at reducere til andre distributioner ., Hvis fordelingen reduceres til den eksponentielle fordeling, som antager konstant fare over en levetid og er uden hukommelse. Den hukommelsesløse egenskab indikerer, at en fremtidig begivenhed, målt fra ethvert øjeblik i tiden, forventes at forekomme i tide, uanset hvornår den sidste begivenhed fandt sted .

når sandsynligheden for overlevelse ved hver efterfølgende er afhængig af tidligere overlevelse , og distributioneibull-distributionen bevarer en “hukommelse” af tidligere overlevelsestider. Typiske værdier varierer afhængigt af applikationen; distributioner med i området 0,5 til 3 er imidlertid passende ., I denne analyse fandt vi tegn på en faldende fare. Dette indikerer, at formen af fordelingen for de observerede overlevelsesfejltider er en funktion af den underliggende fordeling for de uobserverede overlevelsestider, hvilket tillader os at estimere længden af kræftforsinkelsesperioden.

2.4. Weibull Model Udvidelse

Udnytte betingede sandsynlighed teori og den populære to-parameter Weibull model som vores rammer, har vi udviklet en matematisk model til at redegøre for den antagelse, at de enkelte overlevelse op til tidspunktet for diagnosen., Ved at indføre denne ekstra parameter og udnytte hukommelsesegenskaben af distributioneibull-distributionen, gendanner vi det, vi forsigtigt mener at være tiden mellem kræftinitiering og diagnose. Brug af oplysninger fra observerede incidensdata tilgængelige fra kræftregistre, vores analyse viste, at parametereibull-formparameteren, , var strengt mindre end 1 for alle kræftformer. Da farefunktionen falder over tid, har distributionen en stærk hukommelse af tidligere overlevelsestider, hvilket er en afgørende faktor i denne analyse.,

for at illustrere tidslinjen for begivenheder præsenterer Figur 1 Et diagram over rækkefølgen af kræfthændelser. Den første begivenhed, der forekommer, er indledningen af sygdom, den anden begivenhed er kræftdiagnosen, hvor sagen rapporteres til det lokale kræftregister, og den tredje begivenhed er dødstidspunktet eller undersøgelsesendepunktet. Latensperioden er defineret som tiden mellem kræftinitiering og diagnose, som vi søger at estimere. Individets sande levetid kan repræsenteres af længden af tid fra kræftinitiering til døden.,

Figur 1

Tidslinje for begivenheder, der demonstrerer den uobserverede og observerede perioder af kræft, der begynder på tidspunktet for sygdommens begyndelse.,

Brug den Weibull overlevelse funktion i (5) som vores udgangspunkt, at den betingede sandsynlighed for at overleve over tid, betragtning af patienternes liv op til tidspunktet for diagnosen, kan være repræsenteret ved den funktion, I denne model, længden af ventetid, der er udpeget af lag ‘ en parameter, , formen parameter, og skalaparameter, . Hver repræsenterer det tidspunkt, hvor et individ blev observeret fra tidspunktet for kræftdiagnose indtil kræftspecifik død eller undersøgelsens endepunkt.

2, 5., Estimering af modelparametre

Kaplan-Meier-metoden blev brugt til at estimere overlevelsessandsynlighederne, der blev brugt som resultatvariabel i vores model. Til denne analyse bruger vi lineære regressionsmetoder til at estimere parameterseibull-modelparametrene på grund af deres beregningsmæssige enkelhed og lette grafiske fortolkning . Weieibull-modellen har den centrale egenskab, at ln (- ln) er lineær med ln, hvor regressionsligningen har hældning , og opfange, Ln ().,

Udnytte de metoder, der er skitseret af Nadler og Zurbenko , den omtrentlige sandsynligheden for værdien af den ventetid, kan estimeres ved hjælp af følgende formel: Denne funktion udgør den tid, hvor de log-transformerede overlevelse skøn , tilbagegang på , er lig med korrektionsfaktoren ., For at finde værdien af , at vi plot log negative log af theKaplan-Meier-estimater mod den naturlige logaritme af tid og bestemme hældningen af regressionsligningen for At bestemme modellens parametre, og de log-transformerede betinget Kaplan-Meier-estimater var tilbagegang på tid med intercept og slope, Denne tilnærmelse giver en enkel og hurtig måde til at estimere den ventetid kræft periode, hvor hazard rate ændringer over tid.

2, 6., Data

månedlige observationer af nyligt diagnosticerede voksne kræfttilfælde i USA blev opnået for perioden 1973-2008 tilgængelig gennem programmet overvågning, Epidemiologi og slutresultater (SEER). SEER er et nationalt register for kræftformer, der er bestilt af National Cancer Institute, som begyndte opretholde registreringer af patienter med kræft i 1973 . Fra dette datasæt blev kræftsted, diagnosedato, resum stagestadium, tumorsekvensnummer og vital status anvendt i analysen.,

de typer kræft, der blev valgt til denne analyse, var begrænset til dem med høj dødelighed og begrænset tilgængelighed af effektive behandlingsmuligheder, der gjorde det muligt for sygdommen at følge dens naturlige forløb, hvilket minimerer potentielle forstyrrelser. Høj dødelighed maksimerer mængden af information, som forskeren kender, hvilket giver mere præcise estimater. Samlet set blev 6 in situ og invasive primære kræftformer udvalgt og analyseret med en samlet prøvestørrelse på 556.696. Disse kræftformer omfatter akut myeloid leukæmi, hjerne, lever, lunge og bronchus, bugspytkirtel, og mave., Begivenheder blev overvejet i tilfælde, hvor dødsårsagen var kræftspecifik.

3. Resultater og diskussion

det betingede overlevelsesplot i figur 2 antyder, at parametereibull-formparameteren,, falder og derefter stabiliseres over tid for alle kræfttyper, der verificerer, at distributioneibull-distributionen muliggør en hukommelse af tidligere overlevelsesobservationer. Overlevelseskurverne indikerer, at risikoen for fiasko falder over tid, hvilket kan tilskrives svage individer, der fortabes hurtigt efter diagnosen, og stærkere individer, der overlever i lange perioder., Melanom har den højeste overlevelsesrate, hvor 80% af patienterne overlever 30 år efter diagnosen. Brystkræft har også en relativt høj overlevelsesrate på 30 år, hvor 58% af patienterne overlever 30 år efter diagnosen. Lungekræft har en dyster prognose med 6.4% af patienterne, der overlever 30 år efter diagnosen; bugspytkirtelkræft ligner 98% af patienterne, der dør inden for tredive års diagnose.,

Figur 2

Observeret betinget overlevelse parceller med Weibull form parameter for modermærkekræft, bryst -, lunge-og bugspytkirtelkræft.

tidlig diagnose af kræft kan forekomme ved øget screeningspraksis og kan ændre det naturlige sygdomsforløb. Indsamling af SEER data begyndte i 1973, og tilgængeligheden af kræft screeninger og effektive behandlinger for brystkræft og modermærkekræft, kræft, er steget dramatisk i de sidste 20 år., I nogle tilfælde kan rutinemæssige screeninger identificere læsioner hos patienter, som ellers måske aldrig er blevet diagnosticeret i deres levetid. Disse fordomme, kendt som bly-tid bias og overdiagnose bias, kan forstyrre vores evne til at generalisere resultater fra en prøve til befolkningen. I et forsøg på at undgå disse potentielle forstyrrelser blev kræft med lav dødelighed og kendte behandlingsforløb (dvs.bryst og melanom) udelukket fra denne analyse.,

i figur 3 vises en grafisk repræsentation af metoden, hvor det omtrentlige skøn anvendes til at bestemme tiden mellem lungekræftinitiering og diagnose for alle stadier af sygdommen kombineret. Parametereibull-formparameteren for all-stage lungekræft var 0,57, og korrektionsfaktoren var 0,735. Ved at udvide den lineære regressionsligning til punkt 0.735 på-aksen estimerer vi latensperioden for lungekræft til 13,6 år. Modelparameterestimaterne blev opnået ved hjælp af (7), (8) og (9)., Samlet set fandt vi regressioneibull-regressionsmodellen, der passer til dataene bemærkelsesværdigt godt med en gennemsnitlig kvadratværdi på 93.3. Modelresterne blev tilfældigt fordelt omkring regressionslinjen, hvilket tyder på ingen underliggende tendenser.

Figur 3

Estimering af den omtrentlige tid for lungekræft indledningen hjælp Weibull model forlængelse.,

anvendelse af extensioneibull-modeludvidelsen til en undergruppe af kræftformer i SEER-dataene bestemte vi længden af latensperioderne og præsenterede disse estimater i figur 4. Bemærk, at disse estimater er stratificeret efter kræfttype, men inkluderer alle faser kombineret. Modellen kan stratificeres yderligere efter behov, så længe prøvestørrelserne forbliver store. I figur 4 har akut myeloid leukæmi den længste estimerede latensperiode på 25, 75 år, mavekræft har den næstlængste latensperiode på 22.,86 år, og hjernekræft har en estimeret latensperiode på 21, 87 år. Pancreas -, lever-og lungekræft har relativt korte latensperioder, der spænder fra 8, 59 år til 13, 57 år. Disse kræftformer diagnosticeres ofte i sene stadier, når prognosen er dårlig, og chancen for langvarig overlevelse er dyster. Selvom disse estimater muligvis ikke er helt nøjagtige, fordi de er en matematisk tilnærmelse, giver de en meningsfuld placering af kræftformer med de længste perioder med uopdaget vækst.,

Figur 4

Anslåede interval mellem første kræft-relaterede mutation og diagnose er opnået med den Weibull model forlængelse.

en biologisk undersøgelse offentliggjort i Nature indsamlede genetiske materialer fra 7 patienter, der døde af bugspytkirtelkræft i slutstadiet og bestemte tidspunktet for carcinogenese. Forskere fandt, at det i gennemsnit tog 11, 7 år for en moden bugspytkirteltumor at danne sig efter udseendet af den første kræftrelaterede mutation i en bugspytkirtelcelle. En anden 6.,8 år gik i gennemsnit, før den primære tumor sendte en metastatisk læsion til et andet organ. Fra det tidspunkt døde patienten i gennemsnit 2, 7 år. I alt er der gået mere end 20 år mellem udseendet af den første muterede bugspytkirtelcelle og døden . Estimatet opnået ved hjælp af extensioneibull-modelforlængelsen indikerer, at der i gennemsnit gik 8, 59 år fra tidspunktet for kræftinitiering til diagnose for patienter med all-stage pancreascancer kombineret.

som tidligere nævnt, Manton et al., udnyttet fem-parameter version af skrøbelighed model med en baselineeibull baseline at undersøge forholdet mellem heterogenitet i aldersrelaterede mønstre af kræft incidens og mekanismerne i carcinogenese. De estimater, der er opnået for” lag ” – perioden mellem forekomsten af den første maligne kræftcelle og datoen for kræftbegyndelse for udvalgte kræfthistotyper, er vist i tabel 1 og .,

Cancer type Lag estimate
(years)
Liver 817 21.2 ± 2.3
Lung and bronchus 804 19.8 ± 5.8
Lung and bronchus 807 15.3 ± 6.2
Lung and bronchus 814 19.3 ± 4.0
Pancreas 814 14.8 ± 9.,4
Tabel 1
Skønnes lag bestemmes af Manton et al. for udvalgte kræfthistotyper.

generelt er vores resultater i overensstemmelse med dem, der opnås af Manton et al. ; imidlertid er nøjagtig sammenligning ikke mulig, da forskerne leverer histotypespecifikke estimater, og målingsperioderne er muligvis ikke nøjagtige. En anden faktor, der gør sammenligningen vanskelig, er den “forsinkelse”, der henvises til af Manton et al., repræsenterer perioden mellem forekomsten af den første maligne kræftcelle og kræftbegyndelse. Vores estimat afspejler perioden mellem kræftindtræden og diagnosen, som måske eller måske ikke er ækvivalent.

for lunge-og bronchuscancer falder vores resultater inden for estimaterne i tabel 1. Vi vurderer, at 13,57 år gik fra kræftinitiering til diagnose for alle stadier og histotyper af lungekræft kombineret. Resultater opnået af Manton et al. spænder fra en forsinkelse på år og år for histotyper af lungekræft 804, 807 og 814. Manton et al., estimatår gik i gennemsnit mellem forekomsten af den første ondartede kræftcelle og kræftbegyndelse for kræft i bugspytkirtlen. Vores resultater for kræft i bugspytkirtlen falder i tråd med Manton et al. og foreslår, at 8,59 år gik mellem kræftinitiering og diagnose. Latency skøn for leveren kræft, viser, at 10.81 år, der er gået fra kræft indledningen til diagnose, som falder lidt uden for det interval, der er foreslået af Manton et al. år., Denne forskel kan skyldes sammenligningen af alle histotyper med en specifik histotype samt eventuelle forskelle i måling af kræftfremkaldende perioder som nævnt tidligere.

i dette papir præsenteres en ny algoritme, der bruger overlevelsesinformation opnået strengt efter sygdomsdiagnose til at estimere, hvad vi forsigtigt mener at være tiden mellem kræftindtræden og diagnosen. Evnen til at “spore” progressionen af tidligere overlevelseshistorier er afhængig af formen af faren, der øges eller falder over tid., Samlet set viser vores kvantitative analyse, at der er et stort vindue med mulighed for diagnose, mens sygdommen stadig er i det helbredende Stadium. Selvom extensioneibull-modeludvidelsen muligvis ikke giver nøjagtige estimater, fordi det er en tilnærmelsesløsning, giver det utvivlsomt det medicinske samfund mulighed for at identificere kræfttyper ved at øge risikoen for at skelne mellem de “tavse mordere” med lange uopdagede perioder med vækst og en høj risiko for død., Ved at stille disse oplysninger til rådighed præsenterer vi en lang række muligheder for ny forskning i tidlig påvisning og forebyggende screening, der forbedrer prognosen for sygdommen. De vigtigste fordele ved den betingede modeleibull-model er dens enkelhed, der kun bruger enkle lineære regressionsmetoder og evne til at tillade yderligere forskning i medicinske problemer gennem matematisk modellering.

Skriv et svar

Din e-mailadresse vil ikke blive publiceret. Krævede felter er markeret med *