Site Overlay

Kjære Mona, Hva er Det Mest Vanlige Navnet I Amerika?

Kjære Mona,

Hva er de vanligste første – og siste-navn kombinasjoner i Usa? Er John Smith virkelig den mest vanlige navn?

Kieron George, 21, North Yorkshire, UK.

Kjære Kieron,

Vel, dette er en ekte head-scratcher — ikke minst fordi hvis du ønsker en liste over de for-og etternavn av Amerikanere, du hadde bedre har enten et mye tid og penger eller arbeid for NSA., Dessverre er jeg ikke passer, enten beskrivelse, så jeg kommer til å prøve å sette sammen to separate databaser — en for første navn og en for etternavn. Men som jeg vil forklare, de datasett kan ikke være sydd sammen så lett. Hvis de kunne, ville vi være i stand til å si at «John Smith» er den tredje mest vanlige fullt navn i Amerika, men i virkeligheten er det sannsynligvis ikke selv gjør det inn i topp 10.,

for Å få deg et svar, min kollega Andrew Blomster og jeg prøvde en mer avansert teknikk som kommet til en annen konklusjon: Vi tror det mest vanlige navnet i Amerika kan meget vel være James Smith.

Her er hvordan vi kom dit.

Først av, første navn. Social Security Administration (SSA) har en database over alle fornavn tilbake til 1880. Denne datoen bør tips du av på et problem — dessverre ingen av 1,746 babyer døpt «Minnie» i 1880 er fortsatt i live i dag., For å ta dødsfall i betraktning, vi så på antall levendefødte barn hvert år siden 1910, og aktuarmessige data om forventet levealder, prøvde å finne ut hvor mange av dem er fortsatt rundt. (Sjefen vår, Nate Silver, brukes en tilsvarende metodikk når han så på de typiske alder av Amerikanere med ulike navn.)

Factoring i forventet levealder også korrigerer for varierende popularitet av første navn over tid. For eksempel, kvinner som heter Bretagne har en tendens til å være yngre enn, si, de heter Ethel.

Men en betydelig del av folk som bor i USA, — 13 prosent av befolkningen — ble ikke født her, og navnene deres er ikke inkludert i SSA ‘ s database av baby navn. Vi trengte en måte å telle dem, også, og startet med å fokusere på innvandrere som er Spanske eller Latino, fordi de utgjør nesten halvparten av landets utenlandsfødte befolkningen.

Vi tok topp 1000 mest vanlige fornavn fra justert SSA data, funnet ut hvor vanlig de var i hver stat som av 2013, og deretter beregnes en «korreksjon» faktor basert på hvor mye mer vanlig navnet var i land med høyere Hispanic bestander., (Mer metodiske detaljer er i fotnoter.1)

Denne måten, vi var i stand til å sørge for at Hispanic og Latino innvandrere var bedre reflektert i dataene. Som et resultat, «Maria» flyttet opp fra 97th mest populære fornavn i Amerika (ifølge ujusterte SSA-data) for å 73rd.

Etter disse beregningene, vi hadde antall Amerikanere med omtrent alle fornavn.2

Du kan se at ni av topp 10-navnene er merket som mannlige navn i data., Det er fordi fordelingen av kvinnelige navnene har en tendens til å være mer diffuse (eller, for å bruke mindre statistiske sjargong, foreldre har en tendens til å være mer fantasifull når de navnet deres baby jenter). Som en helhet, American første navn er ikke veldig variert — nesten 30 prosent av Amerikanerne har gitt navnet som vises i topp 100-listen.

Neste opp, familienavn som kommer inn. Dette var en litt lettere fordi Census Bureau har en mer oversiktlig database av antall Amerikanere med hver etternavn.,3 Det ble sist utgitt i 2000, som utgjør et problem fordi American nomenklatur kunne ha endret seg mye i de siste 14 årene. For å ta høyde for dette, så vi på den etniske fordelingen av den AMERIKANSKE befolkningen før og nå, og den etniske fordelingen av personer med disse navnene. Vi var da i stand til å justere antall forekomster av hver etternavn av veksten i den rasemessige/etniske grupper av de som har dette navnet.4 Så, for eksempel, etternavn Smith er om 74 prosent hvite, mens etternavnet Garcia er 91 prosent Hispanic., Vi har da antatt antall hvite Smith vokste siden 2000 i samme takt som den generelle hvite befolkningen (som var litt over 1 prosent). Og ditto for Garcia — Hispanic andel av de navngitte Garcia vokste på den samlede Hispanic pris. Dette forårsaket en stor omstokking av de beste etternavn, fordi Hispanic befolkningen vokste mye raskere (med mer enn 50 prosent) enn den hvite befolkningen i denne perioden. I slutten, det forholdsmessig andel av Garcias i befolkningen går opp, mens den del av Herrene går ned.,

Selv etter at beregningen, det var klart, at selv om mange fornavn komme inn og ut av mote, familienavn som kommer inn har en tendens til å endre til en mye lavere pris. America ‘ s mest vanlig etternavn av en mile Smith — 2,5 millioner Amerikanere har det, i forkant av 2 millioner kroner med etternavn Johnson.

Nå er den vanskelige biten. Vi slått disse tallene på fornavn og etternavn til sannsynligheter ved å dele dem med det totale antall personer i landet. Som viste at sjansen for å bli kalt «Michael» er 1.,1 i 100, og at sjansen for å ha etternavnet «Smith» er 0,8 i 100. For å regne ut sannsynligheten for å bli kalt «Michael Smith,» vi bare multiplisert disse to for å få 0.008 i 100.

Her er noe du vil sjelden høre meg si i denne kolonnen: Denne metoden er crap (og det er fortsatt dritt, selv etter alle disse justeringene for dødelighet, innvandring og befolkningsvekst). Det forutsetter at du kan behandle en persons fornavn og etternavn som uavhengige variabler, dvs. som om de har ingenting med hverandre å gjøre., Men gjetter på antall Amerikanere med en bestemt første – og siste-navn kombinasjon er ikke som kaster to terninger — med både navn er nært knyttet til hverandre.

for Å illustrere poenget, la oss bruke de 20 mest vanlige for-og etternavn i landet. Hvis du bare multiplisere sannsynligheten for hver av dem, vil du få en pen liten (og svært misvisende) diagram som ser ut som dette:

Den første og viktigste grunnen til at dette er galt, er at grunnleggende demografiske fakta knytte visse første og siste navn sammen., Vi vet at navnene ikke er likt fordelt blant Amerikanerne fordi Census Bureau publiserer de familienavn som kommer inn med et sammenbrudd av rase og etnisk gruppe. Det viser at i 2000, 99,9 prosent av Amerikanere med etternavn «Heimerl» var hvite, og 99.0 prosent med etternavn «Rezendiz» var Spanske.

Disse fakta påvirke første navn, også. Intuitivt, har du sannsynligvis tror at det er mange flere Amerikanere som kalles «Maria Martinez» enn «Maria Miller.»Siste året, Lee Hartman, professor emeritus i spansk ved Southern Illinois University, prøvde å teste at intuisjon., Hartman hadde en enkel idé: Se opp for første – og siste-navn kombinasjoner på de Hvite Sidene nettstedet og se om enkle sannsynligheter fanget virkeligheten. Han fant de grunnleggende sannsynligheter var veien mark.

Hartman ikke velge de beste navnene for sitt bord ved hjelp av SSA og folketellinger, så det ser litt forskjellig fra vår. Men det viser bare hvor sterk de rasemessige og etniske faktorer.

Ta det første navnet «Thomas», og den siste navnet «Rodriguez» som eksempler., Hvis du antar at sannsynligheten for å ha enten navn er uavhengige, så sjansen for en Amerikaner som heter «Thomas Rodriguez» er om 0.000019 prosent, og det ville være om 5º940 Amerikanere som kalles «Thomas Rodriguez.»Å søke på WhitePages.com skjønt, Hartman funnet at antall personer i telefonboken med det navnet var 84 prosent lavere enn de grunnleggende sannsynligheter skulle tilsi., Du kan se akkurat hvor mye enkle sannsynligheter over – og undervurderer utbredelsen av et bestemt navn med Hartman er matrisen nedenfor (klikk for å utvide):

Det er andre edelstener i dette diagrammet som viser bare hvor dårlig en idé det er å anta navn kan gå sammen i en hvilken som helst rekkefølge. Antallet Amerikanere som heter «John Johnson,» «David Davis,» «Thomas Thomas» eller «William Williams» er (heldigvis) langt lavere enn enkle sannsynligheter skulle tilsi., Enda mindre fet alliterations, slik som «Mark Martin» og «Daniel Davis,» synes å være upopulær blant foreldre plukke navn.

Hvis du var å utvide listen utenfor topp 20, vil du sannsynligvis legge merke til noen andre usannsynlig navn kombinasjoner som på en datamaskin, selv en kablet faktor i etnisitet, rett og slett ikke kunne gjenkjenne. Som Andrew Blomster sagt det, «uansett hvor pen navnet, jeg har ikke tenkt på å kalle en datter av min Rose.»Og i svært sjeldne tilfeller at jeg kom til å endre mitt etternavn, jeg sannsynligvis ikke ville gå for «Lott» (ingen krenkelser til 25,118 Amerikanere med etternavn).,

«John Smith» (som det er nesten 24 prosent færre i telefonboken enn enkle sannsynligheter ville foreslå) ser ut til å lide et dobbelt slag fra å være ikke bare en stor figur i historie, men også en plassholder for navnet er blitt en klisjéaktige byname for blandness.

Så vi tok en siste statistisk trinn til å redegjøre for det faktum at sjansene for å ha en viss fornavn (som John), er ikke uavhengige av sjansene for å ha en viss etternavn (la oss si Smith)., Vi har justert våre enkle estimater av de mest sannsynlige navnet kombinasjoner ved å ta hensyn til Hartman forskning på hvilke kombinasjoner er mer eller mindre sannsynlig enn de grunnleggende sannsynlighet ville foreslå.

Som et resultat, «Michael Smith» falt ned fra den mest sannsynlige navn i Amerika til andre plass og ble forbigått av «James Smith.»Det var mer dramatiske endringer, også. For eksempel, i henhold til uavhengige sannsynligheter, «Maria Garcia» var ventet å bli den 354th mest vanlige fullt navn (og «Maria Smith» ville rangering som Nr 74)., Men ifølge Hartman er data, «Maria» og «Garcia» korrelerer nesten 700 prosent mer enn du forventer. Det betyr at «Maria Garcia» skyrockets til det 15. mest vanlige navn kombinasjon samlet. (Vi har lagt inn alle data som brukes i vår analyse til vår GitHub side.)

Håper tallene hjelpe, Kieron George (forresten, vår sannsynligheter som tyder på at det er 0.24 personer med navnet ditt i Usa, så hvis du var å flytte over her, jeg regner med du vil være unik).

Mona (og Andreas)

Har du et spørsmål du ønsker besvart her?, Send det til [email protected] eller @DataLab538.

X

Spesielt, kjørte vi 1,000 regresjoner, en for hver av de topp 1000 mest vanlige fornavn. Variablene som brukes i regresjonen var, på den ene siden, den frekvensen som som navnet dukket opp i hver stat (dette var den avhengige variabelen), og på den andre siden var andelen av landets befolkning som er Spansk (dette er den uavhengige variabelen). Dette siste kommer fra Census Bureau og regnskap for innvandring, inkludert ulovlige innvandrere., Etter å ha kjørt disse 1,000 regresjoner, hva resulterte var Hispanic korreksjon koeffisienter som er spesifikke for hver første navn, noe som indikerer hvordan Hispanic hvert ble. Fra disse koeffisientene, en «korreksjon» (enten opp eller ned) ble beregnet for det første navnet ved å bruke forholdet mellom nasjonale Hispanic befolkningen dele den utenlandsfødte befolkningen dele. Imidlertid, korreksjon for hvert navn er avgrenset av forholdet mellom den Spansktalende befolkningen i prosent og den utenlandsfødte befolkningen prosentandel: ved 0.9496 på den lave enden, og ved 1.3460 på den høye enden., Plottet nedenfor, er korrigeringsfaktorer for topp 1000 første navn, bestilt av hvordan Hispanic de var beregnet til å være.

X

Spesielt, kjørte vi 1,000 regresjoner, en for hver av de topp 1000 mest vanlige fornavn. Variablene som brukes i regresjonen var, på den ene siden, den frekvensen som som navnet dukket opp i hver stat (dette var den avhengige variabelen), og på den andre siden var andelen av landets befolkning som er Spansk (dette er den uavhengige variabelen)., Dette siste kommer fra Census Bureau og regnskap for innvandring, inkludert ulovlige innvandrere. Etter å ha kjørt disse 1,000 regresjoner, hva resulterte var Hispanic korreksjon koeffisienter som er spesifikke for hver første navn, noe som indikerer hvordan Hispanic hvert ble. Fra disse koeffisientene, en «korreksjon» (enten opp eller ned) ble beregnet for det første navnet ved å bruke forholdet mellom nasjonale Hispanic befolkningen dele den utenlandsfødte befolkningen dele., Imidlertid, korreksjon for hvert navn er avgrenset av forholdet mellom den Spansktalende befolkningen i prosent og den utenlandsfødte befolkningen prosentandel: ved 0.9496 på den lave enden, og ved 1.3460 på den høye enden. Plottet nedenfor, er korrigeringsfaktorer for topp 1000 første navn, bestilt av hvordan Hispanic de var beregnet til å være.

X

jeg sier «omtrent» fordi SSA bare publiserer data for navn som gjentas minst fem ganger i et enkelt år for å beskytte personvernet, slik at også data på den innfødte befolkningen er ikke perfekt., Ifølge våre beregninger, om 92,000 første navn dekke om lag 80 prosent av 2013 befolkningen, eller om lag 255 millioner mennesker.

X

Spesielt, kjørte vi 1,000 regresjoner, en for hver av de topp 1000 mest vanlige fornavn. Variablene som brukes i regresjonen var, på den ene siden, den frekvensen som som navnet dukket opp i hver stat (dette var den avhengige variabelen), og på den andre siden var andelen av landets befolkning som er Spansk (dette er den uavhengige variabelen)., Dette siste kommer fra Census Bureau og regnskap for innvandring, inkludert ulovlige innvandrere. Etter å ha kjørt disse 1,000 regresjoner, hva resulterte var Hispanic korreksjon koeffisienter som er spesifikke for hver første navn, noe som indikerer hvordan Hispanic hvert ble. Fra disse koeffisientene, en «korreksjon» (enten opp eller ned) ble beregnet for det første navnet ved å bruke forholdet mellom nasjonale Hispanic befolkningen dele den utenlandsfødte befolkningen dele., Imidlertid, korreksjon for hvert navn er avgrenset av forholdet mellom den Spansktalende befolkningen i prosent og den utenlandsfødte befolkningen prosentandel: ved 0.9496 på den lave enden, og ved 1.3460 på den høye enden. Plottet nedenfor, er korrigeringsfaktorer for topp 1000 første navn, bestilt av hvordan Hispanic de var beregnet til å være.

X

jeg sier «omtrent» fordi SSA bare publiserer data for navn som gjentas minst fem ganger i et enkelt år for å beskytte personvernet, slik at også data på den innfødte befolkningen er ikke perfekt., Ifølge våre beregninger, om 92,000 første navn dekke om lag 80 prosent av 2013 befolkningen, eller om lag 255 millioner mennesker.

X

Igjen, skjønt, det er klippet i navn som vises minst 100 ganger, av hensyn til personvern.

X

Spesielt, kjørte vi 1,000 regresjoner, en for hver av de topp 1000 mest vanlige fornavn., Variablene som brukes i regresjonen var, på den ene siden, den frekvensen som som navnet dukket opp i hver stat (dette var den avhengige variabelen), og på den andre siden var andelen av landets befolkning som er Spansk (dette er den uavhengige variabelen). Dette siste kommer fra Census Bureau og regnskap for innvandring, inkludert ulovlige innvandrere. Etter å ha kjørt disse 1,000 regresjoner, hva resulterte var Hispanic korreksjon koeffisienter som er spesifikke for hver første navn, noe som indikerer hvordan Hispanic hvert ble., Fra disse koeffisientene, en «korreksjon» (enten opp eller ned) ble beregnet for det første navnet ved å bruke forholdet mellom nasjonale Hispanic befolkningen dele den utenlandsfødte befolkningen dele. Imidlertid, korreksjon for hvert navn er avgrenset av forholdet mellom den Spansktalende befolkningen i prosent og den utenlandsfødte befolkningen prosentandel: ved 0.9496 på den lave enden, og ved 1.3460 på den høye enden. Plottet nedenfor, er korrigeringsfaktorer for topp 1000 første navn, bestilt av hvordan Hispanic de var beregnet til å være.,

X

jeg sier «omtrent» fordi SSA bare publiserer data for navn som gjentas minst fem ganger i et enkelt år for å beskytte personvernet, slik at også data på den innfødte befolkningen er ikke perfekt. Ifølge våre beregninger, om 92,000 første navn dekke om lag 80 prosent av 2013 befolkningen, eller om lag 255 millioner mennesker.

X

Igjen, skjønt, det er klippet i navn som vises minst 100 ganger, av hensyn til personvern.,

X

Census Bureau bryter ned etternavn av fem kategorier: hvit, svart, Spansk, Asian, to løp og American Indian/Pacific Islander. Vekstratene i de fem kategoriene ble deretter brukt til å oppdatere antall forekomster av hver etternavn.

x

Det beste av FiveThirtyEight, levert til deg.

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert. Obligatoriske felt er merket med *