kære Mona,
Hvad er de mest almindelige kombinationer af for – og efternavn i USA? Er John Smith virkelig det mest almindelige navn?
Kieron George, 21, North Yorkshire, STORBRITANNIEN
Kære Kieron,
Nå, det er en rigtig head-skraber — ikke mindst fordi, hvis du ønsker en liste over de første og sidste navne på Amerikanere, at du hellere have enten en masse tid og penge, eller arbejde for NSA., Desværre passer jeg ikke til nogen beskrivelse, så jeg vil forsøge at sammenstykke to separate databaser — en til fornavne og en til efternavne. Men som jeg vil forklare, kan disse datasæt ikke sys sammen så let. Hvis de kunne, ville vi kunne sige, at “John Smith” er det tredje mest almindelige fulde navn i Amerika, men i virkeligheden gør det nok ikke engang det til top 10.,
for at få dig et svar, prøvede min kollega andre.Flo .ers og jeg en mere sofistikeret teknik, der nåede en anden konklusion: Vi tror, at det mest almindelige navn i Amerika meget vel kan være James Smith.
Her er hvordan vi kom der.første off, fornavne. Social Security Administration (SSA) har en database med alle fornavne tilbage til 1880. Denne dato skulle tip dig til et problem-desværre lever ingen af de 1.746 babyer, der blev døbt “Minnie” i 1880, stadig i dag., For at tage hensyn til dødsfald kiggede vi på antallet af babyer, der blev født hvert år siden 1910, og ved hjælp af aktuarmæssige data om forventet levealder forsøgte vi at finde ud af, hvor mange af dem der stadig findes. (Vores chef, Nate Silver, brugte en lignende metode, da han så på amerikanernes typiske alder med forskellige navne.)
Factoring i forventet levealder korrigerer også for den varierende popularitet af fornavne over tid. For eksempel, kvinder ved navn Brittany har en tendens til at være yngre end, sige, dem, der hedder Ethel.
men en betydelig del af mennesker, der bor i USA, – 13 procent af befolkningen-blev ikke født her, og deres navne er ikke inkluderet i SSA ‘ s database med babynavne. Vi havde brug for en måde at tælle dem på, også, og startede med at fokusere på indvandrere, der er latinamerikanske eller Latino, fordi de udgør næsten halvdelen af landets udenlandsk fødte befolkning.
Vi tog de øverste 1.000 mest almindelige fornavne fra de justerede SSA-data, fandt ud af, hvor almindelige de var i hver stat fra 2013, og beregnede derefter en “korrektion” – faktor baseret på hvor meget mere almindeligt navnet var i stater med højere latinamerikanske populationer., (Mere metodologiske detaljer er i fodnoterne.1)
På denne måde var vi i stand til at sikre, at latinamerikanske og Latino-indvandrere blev bedre afspejlet i dataene. Som et resultat flyttede “Maria” op fra det 97.mest populære fornavn i Amerika (ifølge de ujusterede SSA-data) til 73.
efter disse beregninger havde vi antallet af amerikanere med næsten ethvert fornavn.2
Du kan se, at ni af de 10 bedste navne er mærket som mandlige navne i dataene., Det skyldes, at fordelingen af kvindelige navne har en tendens til at være mere diffus (eller for at bruge mindre statistisk jargon har forældre en tendens til at være mere fantasifulde, når de navngiver deres babypiger). Som helhed er Amerikanske fornavne ikke meget forskellige-næsten 30 procent af amerikanerne har et givet navn, der vises på top 100-listen.
næste op, efternavne. Dette var lidt lettere, fordi Census Bureau har en mere ligetil database over antallet af amerikanere med hvert efternavn.,3 Det blev sidst offentliggjort i 2000, hvilket giver et problem, fordi Amerikansk nomenklatur kunne have ændret sig meget i de sidste 14 år. For at tage højde for dette så vi på den etniske sammenbrud af den amerikanske befolkning dengang og nu og den etniske sammenbrud af personer med disse efternavne. Vi var derefter i stand til at justere antallet af forekomster af hvert efternavn ved væksten i race/etniske grupper af dem, der har dette navn.4 så for eksempel er efternavnet Smith omkring 74 procent hvidt, mens efternavnet Garcia er 91 procent Latinamerikansk., Vi antog derefter, at antallet af hvide smede voksede siden 2000 i samme takt som den samlede hvide befolkning (som var lidt over 1 procent). Og ditto for Garcia-den latinamerikanske andel af dem, der hedder Garcia, voksede til den samlede latinamerikanske Sats. Dette forårsagede en større omlægning af de øverste efternavne, fordi den latinamerikanske befolkning voksede meget hurtigere (med mere end 50 procent) end den hvide befolkning i denne periode. I sidste ende går den forholdsmæssige andel af Garcias i befolkningen op, mens andelen af smede går ned.,selv efter denne beregning var det klart, at selv om mange fornavne kommer ind og ud af mode, har efternavne en tendens til at ændre sig meget langsommere. Amerikas mest almindelige efternavn med en kilometer er Smith-2, 5 millioner amerikanere har det foran 2 millioner med efternavnet Johnson.
nu den vanskelige bit. Vi vendte disse tal på fornavne og efternavne til sandsynligheder ved at dividere dem med det samlede antal mennesker i landet. Det viste, at chancen for at blive kaldt” Michael ” er 1.,1 ud af 100, og at chancen for at få efternavnet “Smith” er 0,8 ud af 100. For at finde ud af sandsynligheden for at blive kaldt “Michael Smith”, multiplicerede vi bare de to for at få 0,008 i 100.
Her er noget, du sjældent hører mig sige i denne kolonne: denne metode er crap (og det er stadig crap selv efter alle disse justeringer for dødsrater, indvandring og befolkningstilvækst). Det forudsætter, at du kan behandle en persons fornavn og efternavn som uafhængige variabler, dvs.som om de ikke har noget at gøre med hinanden., Men at gætte antallet af amerikanere med en bestemt for – og efternavnskombination er ikke som at rulle to terninger-begge navne er tæt knyttet til hinanden.
for at illustrere punktet, lad os bruge de 20 mest almindelige for-og efternavne i landet. Hvis du bare gange sandsynlighederne for hver af disse, får du en pæn lille (og meget misvisende) diagram, der ser ud som dette:
Den første og vigtigste grund til, at dette er forkert, er der grundlæggende demografiske fakta uafgjort visse fornavn og efternavn sammen., Vi ved, at efternavne ikke er ligeligt fordelt blandt amerikanere, fordi Census Bureau offentliggør disse efternavne med en opdeling efter race og etnisk gruppe. Det viser, at 99,9 procent af amerikanerne med efternavnet “Heimerl” i 2000 var hvide, og 99,0 procent med efternavnet “re .endi.” var latinamerikanske.
disse fakta påvirker også fornavne. Intuitivt tror du sikkert, at der er mange flere amerikanere kaldet “Maria Martine.” end “Maria Miller.”Sidste år forsøgte Lee Hartman, en lektor emeritus fra spansk ved Southern Illinois University, at teste denne intuition., Hartman havde en simpel id.: slå op for – og efternavnskombinationer på websitehite Pages-websiteebstedet og se, om enkle sandsynligheder fangede virkeligheden. Han fandt, at de grundlæggende sandsynligheder var langt væk fra mærket.Hartman valgte ikke de øverste navne på sit bord ved hjælp af SSA og census records, så det ser lidt anderledes ud end vores. Men det viser, hvor stærke disse racemæssige og etniske faktorer er.
Tag fornavnet “Thomas” og efternavnet “Rodrigue.” som eksempler., Hvis du antager at sandsynligheden for at have enten navn er uafhængige, så er chancen for en Amerikansk navnet “Thomas Rodriguez” handler om 0.000019 procent, og der vil være omkring 5,940 Amerikanere, kaldet “Thomas Rodriguez.”Søger på WhitePages.com Hartman fandt dog, at antallet af personer i telefonbogen med det navn var 84 procent lavere end de grundlæggende sandsynligheder ville foreslå., Du kan se, hvor meget enkel sandsynligheder over – og underestimering af forekomsten af en bestemt navn ved hjælp af Hartman ‘ s matrix nedenfor (klik for at udvide):
Der er andre perler i dette diagram, der afslører, hvor dårlig en idé det er at antage, at navnene kan gå sammen i vilkårlig rækkefølge. Antallet af amerikanere kaldet “John Johnson”, “David Davis”, “Thomas Thomas” eller “Thomasilliam .illiams” er (heldigvis) langt lavere end simple sandsynligheder ville foreslå., Endnu mindre dristige alliterationer, såsom “Mark Martin” og “Daniel Davis,” ser ud til at være upopulære blandt forældre, der vælger navne.
Hvis du skulle udvide listen ud over top 20, ville du sandsynligvis bemærke nogle andre usandsynlige navnekombinationer, som en computer, endda en kablet til faktor i etnicitet, simpelthen ikke kunne registrere. Som andre.Flo .ers udtrykte det, “uanset hvor smukt navnet, Jeg har ikke planer om at kalde en datter af mine Rose.”Og i det meget usandsynlige tilfælde, at jeg skulle ændre mit efternavn, ville jeg sandsynligvis ikke gå efter “Lott” (ingen lovovertrædelse for de 25.118 amerikanere med efternavnet).,
“John Smith” (som der i næsten 24 procent færre i telefonbogen end simpel sandsynligheder vil foreslå) ser ud til at lide en dobbelt slag fra at være ikke kun en stor figur i historien, men også en pladsholder navn, der er blevet en klicheagtige byname for blandness.
så vi tog et sidste statistisk skridt for at tage højde for det faktum, at chancerne for at have et bestemt fornavn (som John) ikke er uafhængige af chancerne for at have et bestemt efternavn (Lad os sige Smith)., Vi justerede vores enkle estimater af de mest sandsynlige navnekombinationer ved at tage hensyn til Hartmans forskning om, hvilke kombinationer der er mere og mindre sandsynlige, end grundlæggende Sandsynlighed antyder.
som et resultat faldt “Michael Smith” ned fra det mest sandsynlige navn i Amerika til andenpladsen og blev omgået af “James Smith.”Der var også mere dramatiske ændringer. For eksempel forventedes “Maria Garcia” ifølge uafhængige sandsynligheder at være det 354.mest almindelige fulde navn (og “Maria Smith” ville rangere som nummer 74)., Men ifølge Hartmans datasæt korrelerer” Maria “og” Garcia ” næsten 700 procent mere, end du ville forvente. Det betyder” Maria Garcia ” skyrockets til den 15. mest almindelige navn kombination samlet. (Vi har lagt alle de data, der anvendes i vores Analyse til vores GitHub side.)
Håber tallene hjælp, Kieron George (i øvrigt vores sandsynligheder, der tyder på, at der er 0.24 mennesker med dit navn i Usa, så hvis du skulle flytte her over, jeg regner med du ville være unik).
Mona (og andre?)
har du et spørgsmål, du gerne vil have besvaret her?, Send det til [email protected] eller @DataLab538.
specifikt kørte vi 1.000 regressioner, en for hver af de mest almindelige 1000 fornavne. De variabler, der bruges i regressionen var på den ene side, at den frekvens, der, som navnet dukkede op i hver stat (dette var den afhængige variabel), og på den anden side var den andel af befolkningen, der er Spansktalende (dette er den uafhængige variabel). Sidstnævnte tal kommer fra Census Bureau og tegner sig for indvandring, herunder udokumenterede indvandrere., Efter at have kørt disse 1,000 regressioner var det, der resulterede, latinamerikanske korrektionskoefficienter, der var specifikke for hvert fornavn, hvilket angav, hvor Latinamerikansk hver var. Fra disse koefficienter blev der beregnet en” korrektion ” (enten op eller ned) for det fornavn ved at bruge forholdet mellem den nationale latinamerikanske befolkningsandel og den udenlandsk fødte befolkningsandel. Imidlertid er korrektionen for hvert navn afgrænset af forholdet mellem den latinamerikanske befolkningsprocent og den udenlandsk fødte befolkningsprocent: med 0.9496 i den lave ende og med 1.3460 i den høje ende., Afbildet nedenfor er korrektionsfaktorerne for top 1,000 fornavne, bestilt af, hvordan spansktalende de blev beregnet til at være.
specifikt kørte vi 1.000 regressioner, en for hver af de øverste 1.000 mest almindelige fornavne. De variabler, der bruges i regressionen var på den ene side, at den frekvens, der, som navnet dukkede op i hver stat (dette var den afhængige variabel), og på den anden side var den andel af befolkningen, der er Spansktalende (dette er den uafhængige variabel)., Sidstnævnte tal kommer fra Census Bureau og tegner sig for indvandring, herunder udokumenterede indvandrere. Efter at have kørt disse 1,000 regressioner var det, der resulterede, latinamerikanske korrektionskoefficienter, der var specifikke for hvert fornavn, hvilket angav, hvor Latinamerikansk hver var. Fra disse koefficienter blev der beregnet en” korrektion ” (enten op eller ned) for det fornavn ved at bruge forholdet mellem den nationale latinamerikanske befolkningsandel og den udenlandsk fødte befolkningsandel., Imidlertid er korrektionen for hvert navn afgrænset af forholdet mellem den latinamerikanske befolkningsprocent og den udenlandsk fødte befolkningsprocent: med 0.9496 i den lave ende og med 1.3460 i den høje ende. Afbildet nedenfor er korrektionsfaktorerne for top 1,000 fornavne, bestilt af, hvordan spansktalende de blev beregnet til at være.
jeg siger bare “om”, fordi SSA kun offentliggør data for navne, der gentages mindst fem gange i et enkelt år til at beskytte privatlivets fred, så selv data på den indfødte befolkning ikke er perfekt., Ifølge vores beregninger dækker omkring 92.000 fornavne omkring 80 procent af 2013-befolkningen, eller omkring 255 millioner mennesker.
specifikt kørte vi 1.000 regressioner, en for hver af de øverste 1.000 mest almindelige fornavne. De variabler, der bruges i regressionen var på den ene side, at den frekvens, der, som navnet dukkede op i hver stat (dette var den afhængige variabel), og på den anden side var den andel af befolkningen, der er Spansktalende (dette er den uafhængige variabel)., Sidstnævnte tal kommer fra Census Bureau og tegner sig for indvandring, herunder udokumenterede indvandrere. Efter at have kørt disse 1,000 regressioner var det, der resulterede, latinamerikanske korrektionskoefficienter, der var specifikke for hvert fornavn, hvilket angav, hvor Latinamerikansk hver var. Fra disse koefficienter blev der beregnet en” korrektion ” (enten op eller ned) for det fornavn ved at bruge forholdet mellem den nationale latinamerikanske befolkningsandel og den udenlandsk fødte befolkningsandel., Imidlertid er korrektionen for hvert navn afgrænset af forholdet mellem den latinamerikanske befolkningsprocent og den udenlandsk fødte befolkningsprocent: med 0.9496 i den lave ende og med 1.3460 i den høje ende. Afbildet nedenfor er korrektionsfaktorerne for top 1,000 fornavne, bestilt af, hvordan spansktalende de blev beregnet til at være.
jeg siger bare “om”, fordi SSA kun offentliggør data for navne, der gentages mindst fem gange i et enkelt år til at beskytte privatlivets fred, så selv data på den indfødte befolkning ikke er perfekt., Ifølge vores beregninger dækker omkring 92.000 fornavne omkring 80 procent af 2013-befolkningen, eller omkring 255 millioner mennesker.
igen, men det er klippet på Navne, der vises mindst 100 gange, af hensyn til privatlivets fred.
specifikt kørte vi 1.000 regressioner, en for hver af de øverste 1.000 mest almindelige fornavne., De variabler, der bruges i regressionen var på den ene side, at den frekvens, der, som navnet dukkede op i hver stat (dette var den afhængige variabel), og på den anden side var den andel af befolkningen, der er Spansktalende (dette er den uafhængige variabel). Sidstnævnte tal kommer fra Census Bureau og tegner sig for indvandring, herunder udokumenterede indvandrere. Efter at have kørt disse 1,000 regressioner var det, der resulterede, latinamerikanske korrektionskoefficienter, der var specifikke for hvert fornavn, hvilket angav, hvor Latinamerikansk hver var., Fra disse koefficienter blev der beregnet en” korrektion ” (enten op eller ned) for det fornavn ved at bruge forholdet mellem den nationale latinamerikanske befolkningsandel og den udenlandsk fødte befolkningsandel. Imidlertid er korrektionen for hvert navn afgrænset af forholdet mellem den latinamerikanske befolkningsprocent og den udenlandsk fødte befolkningsprocent: med 0.9496 i den lave ende og med 1.3460 i den høje ende. Afbildet nedenfor er korrektionsfaktorerne for top 1,000 fornavne, bestilt af, hvordan spansktalende de blev beregnet til at være.,
jeg siger bare “om”, fordi SSA kun offentliggør data for navne, der gentages mindst fem gange i et enkelt år til at beskytte privatlivets fred, så selv data på den indfødte befolkning ikke er perfekt. Ifølge vores beregninger dækker omkring 92.000 fornavne omkring 80 procent af 2013-befolkningen, eller omkring 255 millioner mennesker.
igen, men det er klippet på Navne, der vises mindst 100 gange, af hensyn til privatlivets fred.,
Census Bureau opdeler efternavne efter fem kategorier: hvid, sort, Hispanic, Asiatisk, to løb og American Indian / Pacific Islander. Vækstraterne i disse fem kategorier blev derefter brugt til at opdatere antallet af forekomster af hvert efternavn.
det bedste af FiveThirtyEight, leveret til dig.