beste Mona,
Wat zijn de meest voorkomende voor-en achternaam combinaties in de Verenigde Staten? Is John Smith echt de meest voorkomende naam?
Kieron George, 21, North Yorkshire, U. K.
Dear Kieron,
Dit is een echte head-scratcher — niet in de laatste plaats omdat als je een lijst wilt van de voor-en achternaam van Amerikanen, je beter veel tijd en geld of werk voor de NSA hebt., Helaas, ik niet passen bij beide beschrijving, dus ik ga proberen om samen te werken twee aparte databases-een voor voornamen en een voor achternamen. Maar zoals Ik zal uitleggen, kunnen die datasets niet zo gemakkelijk aan elkaar worden gehecht. Als ze dat konden, zouden we kunnen zeggen dat “John Smith” de derde meest voorkomende volledige naam in Amerika is, maar in werkelijkheid haalt het waarschijnlijk niet eens de top 10.,om u een antwoord te geven, probeerden mijn collega Andrew Flowers en ik een meer geavanceerde techniek die tot een andere conclusie kwam: we denken dat de meest voorkomende naam in Amerika heel goed James Smith zou kunnen zijn.
Hier is hoe we daar kwamen.
First off, first names. De Sociale Zekerheid administratie (SSA) heeft een database van alle voornamen terug naar 1880. Die datum moet u tip af naar een probleem — helaas geen van de 1.746 baby ‘ s gedoopt “Minnie” in 1880 is nog in leven vandaag., Om rekening te houden met sterfgevallen, hebben we gekeken naar het aantal baby ‘ s dat elk jaar sinds 1910 wordt geboren en, aan de hand van actuariële gegevens over de levensverwachting, geprobeerd uit te zoeken hoeveel van hen er nog zijn. (Onze baas, Nate Silver, gebruikte een soortgelijke methodologie toen hij keek naar de typische leeftijd van Amerikanen met verschillende namen.)
Factoring in de levensverwachting corrigeert ook voor de wisselende populariteit van voornamen in de tijd. Bijvoorbeeld, vrouwen met de naam Bretagne hebben de neiging om jonger te zijn dan, laten we zeggen, degenen die Ethel heten.
maar een aanzienlijk deel van de mensen die in de VS wonen, 13 procent van de bevolking is hier niet geboren en hun namen zijn niet opgenomen in de database van de SSA met babynamen. We hadden ook een manier nodig om ze te tellen, en we begonnen met ons te richten op immigranten die Spaans of Latino zijn, omdat ze bijna de helft van de in het buitenland geboren bevolking van het land uitmaken.
we namen de top 1000 meest voorkomende voornamen uit de aangepaste SSA-gegevens, ontdekten hoe vaak ze in elke staat waren vanaf 2013, en berekenden vervolgens een “correctie” factor op basis van hoeveel vaker de naam was in staten met hogere Spaanse populaties., (Meer methodologische details zijn te vinden in de voetnoten.1)
op deze manier konden we ervoor zorgen dat Spaanse en Latino immigranten beter weerspiegeld werden in de gegevens. Als gevolg daarvan is “Maria” gestegen van de 97e populairste voornaam in Amerika (volgens de niet-aangepaste SSA-gegevens) naar de 73e.
Na deze berekeningen hadden we het aantal Amerikanen met bijna elke voornaam.2
u kunt zien dat negen van de top 10 namen worden gelabeld als mannelijke namen in de gegevens., Dat komt omdat de verdeling van vrouwelijke namen de neiging om meer diffuse (of, om minder statistisch jargon te gebruiken, ouders hebben de neiging om meer fantasierijke wanneer ze hun baby meisjes noemen). Als geheel, Amerikaanse voornamen zijn niet erg divers-bijna 30 procent van de Amerikanen hebben een bepaalde naam die in de top 100 lijst verschijnt.
volgende up, familienamen. Dit was een beetje makkelijker omdat het Census Bureau heeft een meer eenvoudige database van het aantal Amerikanen met elke achternaam.,3 Het werd voor het laatst gepubliceerd in 2000, wat een probleem vormt omdat de Amerikaanse nomenclatuur de afgelopen 14 jaar veel had kunnen veranderen. Om dit te verklaren, keken we naar de etnische verdeling van de Amerikaanse bevolking toen en nu, en de etnische verdeling van individuen met die achternamen. We waren dan in staat om het aantal gevallen van elke achternaam aan te passen aan de groei van de raciale/etnische groepen van degenen met die naam.4 dus, bijvoorbeeld, de achternaam Smith is ongeveer 74 procent wit, terwijl de achternaam Garcia is 91 procent Spaans., Vervolgens namen we aan dat het aantal witte smeden sinds 2000 in hetzelfde tempo groeide als de totale blanke bevolking (die iets meer dan 1 procent bedroeg). En ditto voor Garcia-het Spaanse aandeel van degenen met de naam Garcia groeide met het totale Spaanse tarief. Dit veroorzaakte een grote herschikking van de top achternamen, omdat de Spaanse bevolking groeide een stuk sneller (met meer dan 50 procent) dan de blanke bevolking in deze periode. Uiteindelijk stijgt het proportionele aandeel van de Garcias in de bevolking, terwijl het aandeel van de smeden daalt.,
zelfs na die berekening was het duidelijk dat hoewel veel voornamen in en uit de mode komen, achternamen de neiging hebben om veel langzamer te veranderen. Amerika ‘ s meest voorkomende achternaam door een mijl is Smith — 2,5 miljoen Amerikanen hebben het, voor 2 miljoen met de achternaam Johnson.
nu is het lastige deel. We veranderden die nummers op voornamen en achternamen in waarschijnlijkheden door ze te delen door het totale aantal mensen in het land. Dat toonde aan dat de kans om “Michael” genoemd te worden 1 is.,1 op 100, en dat de kans op de achternaam “Smith” 0,8 op 100 is. Om de kans te berekenen om “Michael Smith” genoemd te worden, hebben we die twee vermenigvuldigd om 0,008 in 100 te krijgen.
Hier is iets wat je me zelden hoort zeggen in deze kolom: deze methodologie is onzin (en het is nog steeds onzin, zelfs na al die aanpassingen voor sterftecijfers, Immigratie en bevolkingsgroei). Het veronderstelt dat je iemands voornaam en achternaam kunt behandelen als onafhankelijke variabelen, dat wil zeggen alsof ze niets met elkaar te maken hebben., Maar raden het aantal Amerikanen met een bepaalde voor – en achternaam combinatie is niet als het gooien van twee dobbelstenen — beide namen zijn nauw verwant aan elkaar.
om dit punt te illustreren, gebruiken we de 20 meest voorkomende voor-en achternaam in het land. Als je gewoon de waarschijnlijkheden voor elk van deze vermenigvuldigt, krijg je een nette kleine (en zeer misleidende) grafiek die er als volgt uitziet:
de eerste en belangrijkste reden dat dit verkeerd is, is dat basis demografische feiten bepaalde voor-en achternaam aan elkaar koppelen., We weten dat achternamen niet gelijk verdeeld zijn onder Amerikanen omdat het Census Bureau deze achternamen publiceert met een uitsplitsing naar ras en etnische groep. Het toont aan dat in 2000, 99,9 procent van de Amerikanen met de achternaam “Heimerl” waren wit, en 99,0 procent met de achternaam “Rezendiz” waren Spaans.
deze feiten hebben ook invloed op voornamen. Intuïtief denk je waarschijnlijk dat er veel meer Amerikanen “Maria Martinez” heten dan “Maria Miller.”Vorig jaar probeerde Lee Hartman, emeritus hoogleraar Spaans aan de Southern Illinois University, die intuïtie te testen., Hartman had een eenvoudig idee: zoek voor – en achternaam combinaties op de White Pages website en kijk of eenvoudige waarschijnlijkheden de werkelijkheid gevangen. Hij vond die basiswaarschijnlijkheden totaal verkeerd.
Hartman koos de topnamen voor zijn tabel niet met behulp van SSA en census records, dus het ziet er een beetje anders uit dan de onze. Maar het laat wel zien hoe sterk deze raciale en etnische factoren zijn.
neem de voornaam “Thomas” en de achternaam “Rodriguez” als voorbeeld., Als je aanneemt dat de kans dat een van beide namen onafhankelijk is, dan is de kans dat een Amerikaan “Thomas Rodriguez” wordt genoemd ongeveer 0,000019 procent, en er zouden ongeveer 5.940 Amerikanen “Thomas Rodriguez” worden genoemd.”Zoeken op WhitePages.com Hartman vond echter dat het aantal mensen in het telefoonboek met die naam 84 procent lager was dan de basiswaarschijnlijkheden zouden suggereren., U kunt zien hoeveel eenvoudige waarschijnlijkheden over – en onderschatten de prevalentie van een bepaalde naam met behulp van Hartman ‘ s matrix hieronder (klik om uit te breiden):
Er zijn andere edelstenen in deze grafiek die laten zien hoe slecht een idee is om aan te nemen Namen kunnen samengaan in elke volgorde. Het aantal Amerikanen genaamd “John Johnson”, “David Davis”, “Thomas Thomas” of “William Williams” is (gelukkig) veel lager dan eenvoudige waarschijnlijkheden zou suggereren., Nog minder gewaagde alliteraties, zoals “Mark Martin” en “Daniel Davis,” lijken niet populair te zijn onder ouders die namen kiezen.
als je de lijst zou uitbreiden tot buiten de top 20, zou je waarschijnlijk andere onwaarschijnlijke naamcombinaties opmerken die een computer, zelfs een bedraad om etniciteit te bepalen, gewoon niet kon detecteren. Zoals Andrew Flowers het zei: “hoe mooi de naam ook is, Ik ben niet van plan een dochter van mij Rose te noemen.”En in het zeer onwaarschijnlijke geval dat ik mijn achternaam zou veranderen, zou ik waarschijnlijk niet gaan voor “Lott” (niet beledigend voor de 25.118 Amerikanen met de achternaam).,
“John Smith” (waarvan er bijna 24 procent minder in het telefoonboek staan dan eenvoudige waarschijnlijkheden zouden doen vermoeden) lijkt een dubbele klap te lijden omdat het niet alleen een groot figuur in de geschiedenis is, maar ook een plaatshouder naam die een cliché is geworden voor blandness.
dus namen we een laatste statistische stap om rekening te houden met het feit dat de kans op het hebben van een bepaalde voornaam (zoals John) niet onafhankelijk is van de kans op het hebben van een bepaalde achternaam (laten we zeggen Smith)., We hebben onze eenvoudige schattingen van de meest waarschijnlijke naamcombinaties aangepast door rekening te houden met Hartman ‘ s onderzoek naar welke combinaties meer en minder waarschijnlijk zijn dan basiswaarschijnlijkheid zou suggereren.als gevolg hiervan zakte” Michael Smith “van de meest waarschijnlijke naam in Amerika naar de tweede plaats en werd omzeild door” James Smith.”Er waren ook meer dramatische veranderingen. Bijvoorbeeld, volgens onafhankelijke waarschijnlijkheden, “Maria Garcia” werd verwacht dat de 354e meest voorkomende volledige naam (en “Maria Smith” zou rang als Nr. 74)., Maar volgens Hartman ’s dataset, correleren” Maria” en “Garcia” bijna 700 procent meer dan je zou verwachten. Dat betekent “Maria Garcia” schiet omhoog naar de 15e meest voorkomende naamcombinatie in het algemeen. (We hebben alle gegevens die gebruikt worden in onze Analyse op onze GitHub pagina gepost.)
hoop dat de getallen helpen, Kieron George (Overigens, onze waarschijnlijkheden suggereren dat er 0.24 mensen met uw naam in de Verenigde Staten, dus als je naar hier zou verhuizen, denk ik dat je uniek zou zijn).Mona (and Andrew)
heeft u een vraag die u hier wilt beantwoorden?, Stuur het naar [email protected] of @datalab538.
specifiek hebben we 1.000 regressies uitgevoerd, één voor elk van de top 1.000 meest voorkomende voornamen. De variabelen gebruikt in de regressie waren, aan de ene kant, de frequentie dat die naam verscheen in elke staat (dit was de afhankelijke variabele), en aan de andere kant was het aandeel van de bevolking van de staat dat is Hispanic (dit is de onafhankelijke variabele). Dit laatste cijfer komt van het Census Bureau en houdt rekening met immigratie, inclusief illegale immigranten., Na het uitvoeren van deze 1.000 regressies, wat resulteerde was Hispanic correctiecoëfficiënten specifiek voor elke voornaam, wat aangeeft hoe Hispanic elk was. Uit deze coëfficiënten, een” correctie ” (hetzij omhoog of omlaag) werd berekend voor die voornaam met behulp van de verhouding van de nationale Spaanse bevolking aandeel aan de in het buitenland geboren bevolking aandeel. Echter, de correctie voor elke naam wordt begrensd door de verhouding van de Spaanse bevolking percentage en de in het buitenland geboren bevolking percentage: door 0,9496 op de lage kant, en door 1,3460 op de hoge kant., Hieronder staan de correctiefactoren voor top 1000 voornamen, geordend op hoe Hispanic ze werden berekend te zijn.
specifiek hebben we 1.000 regressies uitgevoerd, één voor elk van de top 1.000 meest voorkomende voornamen. De variabelen gebruikt in de regressie waren, aan de ene kant, de frequentie dat die naam verscheen in elke staat (dit was de afhankelijke variabele), en aan de andere kant was het aandeel van de bevolking van de staat dat is Hispanic (dit is de onafhankelijke variabele)., Dit laatste cijfer komt van het Census Bureau en houdt rekening met immigratie, inclusief illegale immigranten. Na het uitvoeren van deze 1.000 regressies, wat resulteerde was Hispanic correctiecoëfficiënten specifiek voor elke voornaam, wat aangeeft hoe Hispanic elk was. Uit deze coëfficiënten, een” correctie ” (hetzij omhoog of omlaag) werd berekend voor die voornaam met behulp van de verhouding van de nationale Spaanse bevolking aandeel aan de in het buitenland geboren bevolking aandeel., Echter, de correctie voor elke naam wordt begrensd door de verhouding van de Spaanse bevolking percentage en de in het buitenland geboren bevolking percentage: door 0,9496 op de lage kant, en door 1,3460 op de hoge kant. Hieronder staan de correctiefactoren voor top 1000 voornamen, geordend op hoe Hispanic ze werden berekend te zijn.
Ik zeg” zowat ” omdat de SSA alleen gegevens publiceert voor Namen die minstens vijf keer in één jaar terugkomen om de privacy te beschermen, dus zelfs gegevens over de inheemse bevolking zijn niet perfect., Volgens onze berekeningen beslaan ongeveer 92.000 voornamen ongeveer 80 procent van de bevolking van 2013, of ongeveer 255 miljoen mensen.
specifiek hebben we 1.000 regressies uitgevoerd, één voor elk van de top 1.000 meest voorkomende voornamen. De variabelen gebruikt in de regressie waren, aan de ene kant, de frequentie dat die naam verscheen in elke staat (dit was de afhankelijke variabele), en aan de andere kant was het aandeel van de bevolking van de staat dat is Hispanic (dit is de onafhankelijke variabele)., Dit laatste cijfer komt van het Census Bureau en houdt rekening met immigratie, inclusief illegale immigranten. Na het uitvoeren van deze 1.000 regressies, wat resulteerde was Hispanic correctiecoëfficiënten specifiek voor elke voornaam, wat aangeeft hoe Hispanic elk was. Uit deze coëfficiënten, een” correctie ” (hetzij omhoog of omlaag) werd berekend voor die voornaam met behulp van de verhouding van de nationale Spaanse bevolking aandeel aan de in het buitenland geboren bevolking aandeel., Echter, de correctie voor elke naam wordt begrensd door de verhouding van de Spaanse bevolking percentage en de in het buitenland geboren bevolking percentage: door 0,9496 op de lage kant, en door 1,3460 op de hoge kant. Hieronder staan de correctiefactoren voor top 1000 voornamen, geordend op hoe Hispanic ze werden berekend te zijn.
Ik zeg” zowat ” omdat de SSA alleen gegevens publiceert voor Namen die minstens vijf keer in één jaar terugkomen om de privacy te beschermen, dus zelfs gegevens over de inheemse bevolking zijn niet perfect., Volgens onze berekeningen beslaan ongeveer 92.000 voornamen ongeveer 80 procent van de bevolking van 2013, of ongeveer 255 miljoen mensen.
in het belang van de privacy wordt echter opnieuw geknipt op Namen die minstens 100 keer voorkomen.
specifiek hebben we 1.000 regressies uitgevoerd, één voor elk van de top 1.000 meest voorkomende voornamen., De variabelen gebruikt in de regressie waren, aan de ene kant, de frequentie dat die naam verscheen in elke staat (dit was de afhankelijke variabele), en aan de andere kant was het aandeel van de bevolking van de staat dat is Hispanic (dit is de onafhankelijke variabele). Dit laatste cijfer komt van het Census Bureau en houdt rekening met immigratie, inclusief illegale immigranten. Na het uitvoeren van deze 1.000 regressies, wat resulteerde was Hispanic correctiecoëfficiënten specifiek voor elke voornaam, wat aangeeft hoe Hispanic elk was., Uit deze coëfficiënten, een” correctie ” (hetzij omhoog of omlaag) werd berekend voor die voornaam met behulp van de verhouding van de nationale Spaanse bevolking aandeel aan de in het buitenland geboren bevolking aandeel. Echter, de correctie voor elke naam wordt begrensd door de verhouding van de Spaanse bevolking percentage en de in het buitenland geboren bevolking percentage: door 0,9496 op de lage kant, en door 1,3460 op de hoge kant. Hieronder staan de correctiefactoren voor top 1000 voornamen, geordend op hoe Hispanic ze werden berekend te zijn.,
Ik zeg” zowat ” omdat de SSA alleen gegevens publiceert voor Namen die minstens vijf keer in één jaar terugkomen om de privacy te beschermen, dus zelfs gegevens over de inheemse bevolking zijn niet perfect. Volgens onze berekeningen beslaan ongeveer 92.000 voornamen ongeveer 80 procent van de bevolking van 2013, of ongeveer 255 miljoen mensen.
in het belang van de privacy wordt echter opnieuw geknipt op Namen die minstens 100 keer voorkomen.,
het Census Bureau verdeelt achternamen in vijf categorieën: blank, zwart, Latijns-Amerikaans, Aziatisch, twee rassen en Amerikaans-Indiaas/Pacifisch eiland. De groeipercentages in deze vijf categorieën werden vervolgens gebruikt om het aantal exemplaren van elke achternaam bij te werken.
het beste van vijfduizend Acht, aan u geleverd.