Site Overlay

Kära Mona, Vad är det vanligaste namnet i Amerika?

kära Mona,

vilka är de vanligaste första – och efternamn kombinationerna i USA? Är John Smith verkligen det vanligaste namnet?

Kieron George, 21, North Yorkshire, Storbritannien

kära Kieron,

Tja, det här är en riktig huvudskrapare-inte minst för att om du vill ha en lista över amerikanernas första och sista namn, skulle du bättre ha antingen mycket tid och pengar eller arbeta för NSA., Tyvärr passar jag inte någon beskrivning, så jag ska försöka pussla ihop två separata databaser-en för förnamn och en för efternamn. Men som jag ska förklara, dessa datamängder kan inte sys ihop så lätt. Om de kunde, skulle vi kunna säga att ”John Smith” är det tredje vanligaste fullständiga namnet i Amerika, men i verkligheten gör det förmodligen inte ens till topp 10.,

för att få dig ett svar, min kollega Andrew Flowers och jag försökte en mer sofistikerad teknik som nådde en annan slutsats: vi tror att det vanligaste namnet i Amerika mycket väl kan vara James Smith.

Så här kom vi dit.

först av, förnamn. Social Security Administration (SSA) har en databas med alla förnamn tillbaka till 1880. Det datumet bör tipsa dig till ett problem-tyvärr ingen av de 1,746 barn döpt ”Minnie” i 1880 är fortfarande lever idag., För att ta hänsyn till dödsfall tittade vi på antalet barn som föddes varje år sedan 1910 och försökte, med hjälp av aktuariella uppgifter om förväntad livslängd, räkna ut hur många av dem som fortfarande finns kvar. (Vår chef, Nate Silver, använde en liknande metod när han tittade på den typiska åldern av Amerikaner med olika namn.)

Factoring i förväntad livslängd korrigerar också för den varierande populariteten hos förnamn över tiden. Till exempel tenderar kvinnor som heter Brittany att vara yngre än, säg, de som heter Ethel.

men en stor del av människor som bor i USA, – 13 procent av befolkningen — föddes inte här, och deras namn ingår inte i SSA: s databas med babynamn. Vi behövde ett sätt att räkna dem också, och började med att fokusera på invandrare som är spansktalande eller Latino, eftersom de utgör nästan hälften av landets utländska födda befolkning.

vi tog de 1 000 vanligaste förnamn från de justerade ssa data, fick reda på hur vanliga de var i varje stat från och med 2013, och sedan beräknat en ”korrigering” faktor baserat på hur mycket vanligare namnet var i stater med högre spansktalande populationer., (Mer metodologiska detaljer finns i fotnoterna.1)

På så sätt kunde vi se till att spansktalande och latinamerikanska invandrare återspeglades bättre i data. Som ett resultat flyttade ”Maria” upp från det 97: e mest populära förnamn i Amerika (enligt de ojusterade ssa-uppgifterna) till 73: e.

Efter dessa beräkningar hade vi antalet amerikaner med nästan vilket förnamn som helst.2

Du kan se att nio av de 10 bästa namnen är märkta som manliga namn i data., Det beror på att fördelningen av kvinnliga namn tenderar att vara mer diffus (eller att använda mindre statistisk jargong, föräldrar tenderar att vara mer fantasifulla när de heter sina barnflickor). Som helhet är amerikanska förnamn inte särskilt olika-nästan 30 procent av amerikanerna har ett visst namn som visas i topp 100-listan.

Nästa upp, efternamn. Detta var lite lättare eftersom Census Bureau har en enklare databas över antalet amerikaner med varje efternamn.,3 det publicerades senast 2000, vilket utgör ett problem eftersom den amerikanska nomenklaturen kunde ha förändrats mycket under de senaste 14 åren. För att redogöra för detta tittade vi på den etniska uppdelningen av den amerikanska befolkningen då och nu, och den etniska uppdelningen av individer med dessa efternamn. Vi kunde sedan justera antalet instanser av varje efternamn genom tillväxten i ras / etniska grupper av dem som har det namnet.4 till exempel är efternamnet Smith cirka 74 procent vit, medan efternamnet Garcia är 91 procent spansktalande., Vi antog sedan att antalet vita Smiths växte sedan 2000 i samma takt som den totala vita befolkningen (vilket var drygt 1 procent). Och ditto för Garcia-den spansktalande andelen av de som heter Garcia växte till den totala spansktalande kursen. Detta orsakade en stor ombildning av de bästa efternamnen, eftersom den spansktalande befolkningen växte mycket snabbare (med mer än 50 procent) än den vita befolkningen under denna period. I slutändan går den proportionella andelen Garcias i befolkningen upp, medan andelen Smiths går ner.,

även efter denna beräkning var det tydligt att även om många förnamn kommer in och ut ur mode tenderar efternamn att förändras i mycket långsammare takt. Amerikas vanligaste efternamn med en mil är Smith-2,5 miljoner amerikaner har det, före 2 miljoner med efternamnet Johnson.

nu den knepiga biten. Vi gjorde dessa nummer på förnamn och efternamn till sannolikheter genom att dela dem med det totala antalet personer i landet. Det visade att chansen att kallas ”Michael” är 1.,1 i 100, och att chansen att ha efternamnet ”Smith” är 0,8 i 100. För att räkna ut sannolikheten att kallas ”Michael Smith” multiplicerade vi bara dessa två för att få 0.008 i 100.

Här är något du sällan hör mig säga i den här kolumnen: denna metod är skit (och det är fortfarande skit även efter alla dessa justeringar för dödstal, invandring och befolkningstillväxt). Det förutsätter att du kan behandla en persons förnamn och efternamn som oberoende variabler, dvs som om de inte har något att göra med varandra., Men gissa antalet amerikaner med en viss första-och efternamn kombination är inte som att rulla två tärningar-båda namnen är nära besläktade med varandra.

för att illustrera punkten, låt oss använda de 20 vanligaste för-och efternamn i landet. Om du bara multiplicerar sannolikheterna för var och en av dem får du ett snyggt litet (och mycket vilseledande) diagram som ser ut så här:

den första och viktigaste anledningen till att detta är fel är att grundläggande demografiska fakta binder vissa första och sista namn tillsammans., Vi vet att Efternamn inte är lika fördelade bland amerikaner eftersom Census Bureau publicerar dessa efternamn med en uppdelning efter ras och etnisk grupp. Det visar att 99,9 procent av amerikanerna med efternamnet ”Heimerl” år 2000 var vita och 99,0 procent med efternamnet ”Rezendiz” var spansktalande.

dessa fakta påverkar också förnamn. Intuitivt tror du förmodligen att det finns många fler amerikaner som heter ”Maria Martinez” än ” Maria Miller.”Förra året försökte Lee Hartman, en docent emeritus i spanska vid Southern Illinois University, testa den intuitionen., Hartman hade en enkel idé: slå upp första-och efternamn kombinationer på vita sidor webbplats och se om enkla sannolikheter fångade verkligheten. Han fann att de grundläggande sannolikheterna var långt ifrån målet.

Hartman valde inte toppnamnen för sitt bord med SSA-och folkräkningsposter, så det ser lite annorlunda ut än vårt. Men det visar hur starka dessa ras-och etniska faktorer är.

ta förnamn ”Thomas” och efternamnet ”Rodriguez” som exempel., Om du antar sannolikheten för att ha något namn är oberoende, är chansen att en amerikan heter ” Thomas Rodriguez ”cirka 0.000019 procent, och det skulle finnas cirka 5.940 amerikaner som heter” Thomas Rodriguez.”Söker på WhitePages.com men Hartman fann att antalet personer i telefonboken med det namnet var 84 procent lägre än de grundläggande sannolikheterna skulle föreslå., Du kan se hur mycket enkla sannolikheter över – och underskatta förekomsten av ett visst namn med Hartmans matris nedan (Klicka för att expandera):

det finns andra pärlor i detta diagram som avslöjar hur illa en idé det är att anta att namn kan gå ihop i vilken ordning som helst. Antalet amerikaner som heter ”John Johnson”, ”David Davis”, ”Thomas Thomas” eller ”William Williams” är (tack och lov) långt lägre än enkla sannolikheter skulle föreslå., Ännu mindre djärva allitationer, som” Mark Martin ”och” Daniel Davis”, verkar vara impopulära bland föräldrar som väljer namn.

om du skulle utöka listan utöver topp 20, skulle du förmodligen märka några andra osannolika namnkombinationer som en dator, även en kopplad till faktor i etnicitet, helt enkelt inte kunde upptäcka. Som Andrew Flowers uttryckte det, ” oavsett hur vackert namnet är, planerar jag inte att ringa en dotter till min Rose.”Och i den högst osannolika händelsen att jag skulle ändra mitt efternamn, skulle jag förmodligen inte gå för ”Lott” (inget brott mot 25,118 amerikanerna med efternamnet).,

”John Smith” (varav det finns nästan 24 procent färre i telefonboken än enkla sannolikheter skulle föreslå) verkar drabbas av ett dubbelt slag från att vara inte bara en stor figur i historien, men också ett platshållarnamn som har blivit ett klichéd byname för blandhet.

Så vi tog ett sista statistiskt steg för att ta hänsyn till det faktum att chanserna att ha ett visst förnamn (som John) inte är oberoende av chanserna att ha ett visst efternamn (låt oss säga Smith)., Vi justerade våra enkla uppskattningar av de mest sannolika namnkombinationerna genom att ta hänsyn till Hartmans forskning om vilka kombinationer som är mer och mindre sannolika än grundläggande sannolikhet skulle föreslå.

som ett resultat föll ”Michael Smith” ner från det mest sannolika namnet i Amerika till andra plats och kringgås av ”James Smith.”Det fanns också mer dramatiska förändringar. Till exempel, enligt oberoende sannolikheter, förväntades ”Maria Garcia” vara det 354: e vanligaste fullständiga namnet (och ”Maria Smith” skulle rankas som nr 74)., Men enligt Hartmans dataset korrelerar ”Maria” och ”Garcia” nästan 700 procent mer än du förväntar dig. Det betyder ”Maria Garcia” skyrockets till den 15: e vanligaste namnkombinationen totalt. (Vi har postat Alla data som används i vår analys till vår GitHub sida.)

hoppas siffrorna hjälper, Kieron George (förresten, våra sannolikheter tyder på att det finns 0,24 personer med ditt namn i USA, så om du skulle flytta hit, tror jag att du skulle vara unik).

Mona (och Andrew)

har du en fråga som du vill ha besvarad här?, Skicka det till [email protected] eller @ DataLab538.

X

specifikt körde vi 1 000 regressioner, en för var och en av de 1 000 vanligaste förnamn. Variablerna som användes i regressionen var å ena sidan frekvensen som det namnet uppträdde i varje stat (detta var den beroende variabeln), och å andra sidan var andelen av statens befolkning som är spansktalande (detta är den oberoende variabeln). Denna senare siffra kommer från Census Bureau och står för invandring, inklusive papperslösa invandrare., Efter att ha kört dessa 1 000 regressioner, vad resulterade var spansktalande korrigeringskoefficienter specifika för varje förnamn, vilket indikerar hur spansktalande var. Från dessa koefficienter beräknades en” korrigering ” (antingen uppåt eller nedåt) för det förnamn genom att använda förhållandet mellan den nationella spansktalande befolkningens andel och den utländska födda befolkningens andel. Korrigeringen för varje namn begränsas emellertid av förhållandet mellan den spansktalande befolkningsprocenten och den utländska födda befolkningsprocenten: med 0.9496 på den låga änden och med 1.3460 på den höga änden., Ritade nedan är korrigeringsfaktorerna för topp 1,000 förnamn, beställda av hur spansktalande de beräknades vara.

x

specifikt körde vi 1 000 regressioner, en för var och en av de 1 000 vanligaste förnamn. Variablerna som användes i regressionen var å ena sidan frekvensen som det namnet uppträdde i varje stat (detta var den beroende variabeln), och å andra sidan var andelen av statens befolkning som är spansktalande (detta är den oberoende variabeln)., Denna senare siffra kommer från Census Bureau och står för invandring, inklusive papperslösa invandrare. Efter att ha kört dessa 1 000 regressioner, vad resulterade var spansktalande korrigeringskoefficienter specifika för varje förnamn, vilket indikerar hur spansktalande var. Från dessa koefficienter beräknades en” korrigering ” (antingen uppåt eller nedåt) för det förnamn genom att använda förhållandet mellan den nationella spansktalande befolkningens andel och den utländska födda befolkningens andel., Korrigeringen för varje namn begränsas emellertid av förhållandet mellan den spansktalande befolkningsprocenten och den utländska födda befolkningsprocenten: med 0.9496 på den låga änden och med 1.3460 på den höga änden. Ritade nedan är korrigeringsfaktorerna för topp 1,000 förnamn, beställda av hur spansktalande de beräknades vara.

x

Jag säger ”nästan” eftersom SSA endast publicerar data för namn som återkommer minst fem gånger under ett enda år för att skydda integriteten, så även data om den infödda befolkningen är inte perfekt., Enligt våra beräkningar täcker cirka 92 000 förnamn cirka 80 procent av befolkningen 2013, eller cirka 255 miljoner människor.

X

specifikt körde vi 1 000 regressioner, en för var och en av de 1 000 vanligaste förnamn. Variablerna som användes i regressionen var å ena sidan frekvensen som det namnet uppträdde i varje stat (detta var den beroende variabeln), och å andra sidan var andelen av statens befolkning som är spansktalande (detta är den oberoende variabeln)., Denna senare siffra kommer från Census Bureau och står för invandring, inklusive papperslösa invandrare. Efter att ha kört dessa 1 000 regressioner, vad resulterade var spansktalande korrigeringskoefficienter specifika för varje förnamn, vilket indikerar hur spansktalande var. Från dessa koefficienter beräknades en” korrigering ” (antingen uppåt eller nedåt) för det förnamn genom att använda förhållandet mellan den nationella spansktalande befolkningens andel och den utländska födda befolkningens andel., Korrigeringen för varje namn begränsas emellertid av förhållandet mellan den spansktalande befolkningsprocenten och den utländska födda befolkningsprocenten: med 0.9496 på den låga änden och med 1.3460 på den höga änden. Ritade nedan är korrigeringsfaktorerna för topp 1,000 förnamn, beställda av hur spansktalande de beräknades vara.

x

Jag säger ”nästan” eftersom SSA endast publicerar data för namn som återkommer minst fem gånger under ett enda år för att skydda integriteten, så även data om den infödda befolkningen är inte perfekt., Enligt våra beräkningar täcker cirka 92 000 förnamn cirka 80 procent av befolkningen 2013, eller cirka 255 miljoner människor.

X

igen, det är klippt vid namn som visas minst 100 gånger, för privatlivet.

X

specifikt körde vi 1 000 regressioner, en för var och en av de 1 000 vanligaste förnamn., Variablerna som användes i regressionen var å ena sidan frekvensen som det namnet uppträdde i varje stat (detta var den beroende variabeln), och å andra sidan var andelen av statens befolkning som är spansktalande (detta är den oberoende variabeln). Denna senare siffra kommer från Census Bureau och står för invandring, inklusive papperslösa invandrare. Efter att ha kört dessa 1 000 regressioner, vad resulterade var spansktalande korrigeringskoefficienter specifika för varje förnamn, vilket indikerar hur spansktalande var., Från dessa koefficienter beräknades en” korrigering ” (antingen uppåt eller nedåt) för det förnamn genom att använda förhållandet mellan den nationella spansktalande befolkningens andel och den utländska födda befolkningens andel. Korrigeringen för varje namn begränsas emellertid av förhållandet mellan den spansktalande befolkningsprocenten och den utländska födda befolkningsprocenten: med 0.9496 på den låga änden och med 1.3460 på den höga änden. Ritade nedan är korrigeringsfaktorerna för topp 1,000 förnamn, beställda av hur spansktalande de beräknades vara.,

x

Jag säger ”nästan” eftersom SSA endast publicerar data för namn som återkommer minst fem gånger under ett enda år för att skydda integriteten, så även data om den infödda befolkningen är inte perfekt. Enligt våra beräkningar täcker cirka 92 000 förnamn cirka 80 procent av befolkningen 2013, eller cirka 255 miljoner människor.

X

igen, det är klippt vid namn som visas minst 100 gånger, för privatlivet.,

X

Census Bureau bryter ner efternamn med fem kategorier: Vit, svart, spansktalande, Asiatisk, två raser och American Indian / Pacific Islander. Tillväxttakten i dessa fem kategorier användes sedan för att uppdatera antalet instanser av varje efternamn.

×

det bästa av FiveThirtyEight, levereras till dig.

Lämna ett svar

Din e-postadress kommer inte publiceras. Obligatoriska fält är märkta *