Site Overlay

Liebe Mona, Was ist der gebräuchlichste Name in Amerika?

Liebe Mona,

Was sind die häufigsten Vor-und Nachnamen Kombinationen in den Vereinigten Staaten? Ist John Smith wirklich der gebräuchlichste Name?

Kieron George, 21, North Yorkshire, UK

Sehr geehrter Kieron,

Nun, das ist ein echter Kopfkratzer-nicht zuletzt, weil, wenn Sie eine Liste der Vor — und Nachnamen der Amerikaner wollen, sollten Sie entweder viel Zeit und Geld haben oder für die NSA arbeiten., Leider passe ich nicht zu beiden Beschreibungen, also werde ich versuchen, zwei separate Datenbanken zusammenzustellen — eine für Vornamen und eine für Nachnamen. Aber wie ich erklären werde, können diese Datensätze nicht so einfach zusammengenäht werden. Wenn sie könnten, könnten wir sagen, dass „John Smith“ der dritthäufigste vollständige Name in Amerika ist, aber in Wirklichkeit schafft er es wahrscheinlich nicht einmal in die Top 10.,

Um Ihnen eine Antwort zu geben, haben mein Kollege Andrew Flowers und ich eine ausgefeiltere Technik ausprobiert, die zu einer anderen Schlussfolgerung kam: Wir denken, der gebräuchlichste Name in Amerika könnte James Smith sein.

So sind wir dorthin gekommen.

Erste off, erste namen. Die Social Security Administration (SSA) verfügt über eine Datenbank mit allen Vornamen aus dem Jahr 1880. Dieses Datum sollte Sie auf ein Problem hinweisen — leider ist keines der 1.746 Babys, die 1880 „Minnie“ getauft wurden, heute noch am Leben., Um die Todesfälle zu berücksichtigen, haben wir uns die Anzahl der seit 1910 jedes Jahr geborenen Babys angesehen und anhand versicherungsmathematischer Daten zur Lebenserwartung versucht herauszufinden, wie viele von ihnen noch in der Nähe sind. (Unser Chef, Nate Silver, verwendete eine ähnliche Methodik, als er das typische Alter von Amerikanern mit verschiedenen Namen betrachtete.)

Factoring in der Lebenserwartung korrigiert auch für die unterschiedliche Beliebtheit der Vornamen, die im Laufe der Zeit. Zum Beispiel, Frauen namens Brittany neigen dazu, jünger zu sein als, sagen, diejenigen namens Ethel.

Aber ein beträchtlicher Teil der Menschen, die in den USA leben., — 13 Prozent der Bevölkerung-wurde hier nicht geboren, und ihre Namen sind nicht in der Datenbank der SSA mit Babynamen enthalten. Wir brauchten auch eine Möglichkeit, sie zu zählen, und konzentrierten uns zunächst auf Einwanderer, die hispanisch oder Latino sind, weil sie fast die Hälfte der im Ausland geborenen Bevölkerung des Landes ausmachen.

Wir nahmen die 1.000 häufigsten Vornamen aus den angepassten SSA-Daten, fanden heraus, wie häufig sie in jedem Bundesstaat ab 2013 waren, und berechneten dann einen „Korrekturfaktor“, basierend darauf, wie viel häufiger der Name war in Staaten mit höheren hispanischen Populationen., (Weitere methodische Details finden Sie in den Fußnoten.1)

Auf diese Weise konnten wir sicherstellen, dass sich hispanische und lateinamerikanische Einwanderer besser in den Daten widerspiegeln. Infolgedessen stieg „Maria“ vom 97.beliebtesten Vornamen Amerikas (nach den nicht angepassten SSA-Daten) auf den 73.

Nach diesen Berechnungen hatten wir die Anzahl der Amerikaner mit fast jedem Vornamen.2

Sie können sehen, dass neun der Top 10 Namen in den Daten als männliche Namen gekennzeichnet sind., Das liegt daran, dass die Verteilung weiblicher Namen tendenziell diffuser ist (oder, um weniger statistischen Jargon zu verwenden, Eltern neigen dazu, einfallsreicher zu sein, wenn sie ihre kleinen Mädchen nennen). Insgesamt sind amerikanische Vornamen nicht sehr vielfältig — fast 30 Prozent der Amerikaner haben einen Vornamen, der in der Top-100-Liste erscheint.

Weiter oben, Nachnamen. Dies war ein bisschen einfacher, weil das Census Bureau eine einfachere Datenbank der Anzahl der Amerikaner mit jedem Nachnamen hat.,3 Es wurde zuletzt im Jahr 2000 veröffentlicht, was ein Problem darstellt, da sich die amerikanische Nomenklatur in den letzten 14 Jahren stark verändert haben könnte. Um dies zu berücksichtigen, haben wir uns den ethnischen Zusammenbruch der US-Bevölkerung damals und heute und den ethnischen Zusammenbruch von Personen mit diesen Nachnamen angesehen. Wir konnten dann die Anzahl der Instanzen jedes Nachnamens durch das Wachstum der rassischen/ethnischen Gruppen derjenigen, die diesen Namen hatten, anpassen.4 So ist zum Beispiel der Nachname Smith etwa 74 Prozent weiß, während der Nachname Garcia 91 Prozent hispanisch ist., Wir gingen dann davon aus, dass die Zahl der weißen Schmiede seit 2000 mit der gleichen Rate wie die gesamte weiße Bevölkerung (etwas mehr als 1 Prozent) wuchs. Und Dito für Garcia-der hispanische Anteil derer namens Garcia wuchs mit der gesamten hispanischen Rate. Dies führte zu einer großen Neuordnung der Top-Nachnamen, da die hispanische Bevölkerung in diesem Zeitraum viel schneller wuchs (um mehr als 50 Prozent) als die weiße Bevölkerung. Am Ende steigt der proportionale Anteil der Garcias an der Bevölkerung, während der Anteil der Schmiede sinkt.,

Auch nach dieser Berechnung war klar, dass, obwohl viele Vornamen in und aus der Mode kommen, Nachnamen neigen dazu, mit einer viel langsameren Rate zu ändern. Amerikas häufigste Nachname um eine Meile ist Smith-2,5 Millionen Amerikaner haben es, vor 2 Millionen mit dem Nachnamen Johnson.

Jetzt kam der schwierige bit. Wir haben diese Zahlen für Vor-und Nachnamen in Wahrscheinlichkeiten umgewandelt, indem wir sie durch die Gesamtzahl der Personen im Land dividiert haben. Das zeigte, dass die Chance, „Michael“ genannt zu werden, 1 ist.,1 in 100, und dass die Chance, den Nachnamen „Smith“ zu haben, 0,8 in 100 ist. Um die Wahrscheinlichkeit herauszufinden, „Michael Smith“ genannt zu werden, haben wir diese beiden einfach multipliziert, um 0,008 in 100 zu erhalten.

Hier ist etwas, das Sie mich in dieser Spalte selten sagen hören werden: Diese Methodik ist Mist (und es ist immer noch Mist, auch nach all diesen Anpassungen für Todesraten, Einwanderung und Bevölkerungswachstum). Es wird davon ausgegangen, dass Sie den Vor-und Nachnamen einer Person als unabhängige Variablen behandeln können, dh als hätten sie nichts miteinander zu tun., Aber die Anzahl der Amerikaner mit einer bestimmten Vor – und Nachnamen Kombination zu erraten, ist nicht wie zwei Würfel rollen — beide Namen sind eng miteinander verwandt.

Um den Punkt zu veranschaulichen, verwenden wir die 20 häufigsten Vor – und Nachnamen des Landes. Wenn Sie nur die Wahrscheinlichkeiten für jeden von diesen multiplizieren, erhalten Sie ein nettes kleines (und sehr irreführendes) Diagramm, das so aussieht:

Der erste und wichtigste Grund, warum dies falsch ist, ist, dass grundlegende demografische Fakten bestimmte Vor-und Nachnamen miteinander verbinden., Wir wissen, dass Nachnamen unter Amerikanern nicht gleichmäßig verteilt sind, da das Census Bureau diese Nachnamen mit einer Aufschlüsselung nach Rasse und ethnischer Gruppe veröffentlicht. Es zeigt, dass im Jahr 2000 99,9 Prozent der Amerikaner mit dem Nachnamen “ Heimerl „weiß waren und 99,0 Prozent mit dem Nachnamen“ Rezendiz “ hispanisch waren.

Diese Tatsachen betreffen auch Vornamen. Intuitiv denken Sie wahrscheinlich, dass es viel mehr Amerikaner gibt, die „Maria Martinez“ genannt werden als „Maria Miller.“Letztes Jahr versuchte Lee Hartman, emeritierter Professor für Spanisch an der Southern Illinois University, diese Intuition zu testen., Hartman hatte eine einfache Idee: Suchen Sie auf der White Pages – Website nach Kombinationen aus Vor-und Nachnamen und prüfen Sie, ob einfache Wahrscheinlichkeiten die Realität erfassen. Er fand, dass diese grundlegenden Wahrscheinlichkeiten weit von der Marke entfernt waren.

Hartman hat die Top-Namen für seine Tabelle nicht mit SSA-und Census-Datensätzen ausgewählt, daher sieht es etwas anders aus als bei uns. Aber es zeigt, wie stark diese rassischen und ethnischen Faktoren sind.

Nehmen Sie den Vornamen „Thomas“ und den Nachnamen „Rodriguez“ als Beispiele., Wenn Sie davon ausgehen, dass die Wahrscheinlichkeit, einen der beiden Namen zu haben, unabhängig ist, beträgt die Wahrscheinlichkeit, dass ein Amerikaner „Thomas Rodriguez“ heißt, etwa 0,000019 Prozent, und es würde ungefähr 5,940 Amerikaner geben, die „Thomas Rodriguez“ genannt werden.“Suche auf WhitePages.com Hartman stellte jedoch fest, dass die Anzahl der Personen im Telefonbuch mit diesem Namen 84 Prozent niedriger war, als die grundlegenden Wahrscheinlichkeiten vermuten lassen., Sie können sehen, wie viele einfache Wahrscheinlichkeiten die Prävalenz eines bestimmten Namens über – und unterschätzen, indem Sie Hartmans Matrix unten verwenden (klicken, um sie zu erweitern):

Es gibt andere Edelsteine in diesem Diagramm, die zeigen, wie schlecht eine Idee ist, anzunehmen, dass Namen in beliebiger Reihenfolge zusammengehen können. Die Zahl der Amerikaner, die „John Johnson“, „David Davis“, „Thomas Thomas“ oder „William Williams“ genannt werden, ist (zum Glück) weit niedriger als einfache Wahrscheinlichkeiten vermuten lassen., Noch weniger kühne Alliterationen wie“ Mark Martin „und“ Daniel Davis “ scheinen bei Eltern, die Namen auswählen, unbeliebt zu sein.

Wenn Sie die Liste über die Top 20 hinaus erweitern würden, würden Sie wahrscheinlich einige andere unwahrscheinliche Namenskombinationen bemerken, die ein Computer, selbst eine, die mit Ethnizität zu tun hat, einfach nicht erkennen konnte. Wie Andrew Flowers es ausdrückte: „Egal wie hübsch der Name ist, ich plane nicht, eine Tochter von mir Rose anzurufen.“Und in dem höchst unwahrscheinlichen Fall, dass ich meinen Nachnamen ändern würde, würde ich wahrscheinlich nicht für „Lott“ gehen (keine Beleidigung für die 25.118 Amerikaner mit dem Nachnamen).,

„John Smith“ (von dem es fast 24 Prozent weniger im Telefonbuch gibt, als einfache Wahrscheinlichkeiten vermuten lassen) scheint einen doppelten Schlag zu erleiden, weil er nicht nur eine große Figur in der Geschichte ist, sondern auch ein Platzhaltername, der zu einem Klischee geworden ist Name für Langweiligkeit.

Also haben wir einen letzten statistischen Schritt unternommen, um die Tatsache zu berücksichtigen, dass die Chancen, einen bestimmten Vornamen (wie John) zu haben, nicht unabhängig von den Chancen sind, einen bestimmten Nachnamen zu haben (sagen wir Smith)., Wir haben unsere einfachen Schätzungen der wahrscheinlichsten Namenskombinationen angepasst, indem wir Hartmans Forschung darüber berücksichtigt haben, welche Kombinationen mehr und weniger wahrscheinlich sind, als die Grundwahrscheinlichkeit vermuten lässt.

Infolgedessen fiel“ Michael Smith „vom wahrscheinlichsten Namen Amerikas auf den zweiten Platz und wurde von „James Smith“ umgangen.“Es gab auch dramatischere Veränderungen. Zum Beispiel wurde nach unabhängigen Wahrscheinlichkeiten erwartet, dass „Maria Garcia“ der 354.häufigste vollständige Name sein würde (und „Maria Smith“ würde als Nr., Aber laut Hartmans Datensatz korrelieren“ Maria „und“ Garcia “ fast 700 Prozent mehr als Sie erwarten würden. Das bedeutet, dass „Maria Garcia“ in die Höhe schießt, um die 15.häufigste Namenskombination insgesamt. (Wir haben alle in unserer Analyse verwendeten Daten auf unserer GitHub-Seite veröffentlicht.)

Hoffe, die Zahlen helfen, Kieron George (übrigens, unsere Wahrscheinlichkeiten deuten darauf hin, dass es 0.24 Personen mit Ihrem Namen in den Vereinigten Staaten gibt, also wenn Sie hierher ziehen würden, ich denke, Sie wären einzigartig).

Mona (und Andrew)

Haben Sie eine Frage, die Sie hier beantworten möchten?, Senden Sie es an [email protected] oder @DataLab538.

X

Speziell haben wir 1.000 Regressionen durchgeführt, eine für jeden der 1.000 häufigsten Vornamen. Die in der Regression verwendeten Variablen waren einerseits die Häufigkeit, mit der dieser Name in jedem Staat auftrat (dies war die abhängige Variable), und andererseits der Anteil der hispanischen Bevölkerung des Staates (dies ist die unabhängige Variable). Diese letztere Zahl stammt vom Census Bureau und berücksichtigt die Einwanderung, einschließlich undokumentierter Einwanderer., Nachdem diese 1.000 Regressionen ausgeführt wurden, resultierten hispanische Korrekturkoeffizienten, die für jeden Vornamen spezifisch waren und angeben, wie hispanisch jeder war. Aus diesen Koeffizienten wurde eine“ Korrektur “ (entweder nach oben oder unten) für diesen Vornamen berechnet, indem das Verhältnis des nationalen hispanischen Bevölkerungsanteils zum im Ausland geborenen Bevölkerungsanteil verwendet wurde. Die Korrektur für jeden Namen wird jedoch durch das Verhältnis des hispanischen Bevölkerungsanteils und des im Ausland geborenen Bevölkerungsanteils begrenzt: durch 0.9496 am unteren Ende und durch 1.3460 am oberen Ende., Im Folgenden sind die Korrekturfaktoren für Top 1,000 Vornamen aufgeführt, geordnet nach ihrer hispanischen Herkunft.

X

Speziell haben wir 1.000 Regressionen durchgeführt, eine für jeden der 1.000 häufigsten Vornamen. Die in der Regression verwendeten Variablen waren einerseits die Häufigkeit, mit der dieser Name in jedem Staat auftrat (dies war die abhängige Variable), und andererseits der Anteil der hispanischen Bevölkerung des Staates (dies ist die unabhängige Variable)., Diese letztere Zahl stammt vom Census Bureau und berücksichtigt die Einwanderung, einschließlich undokumentierter Einwanderer. Nachdem diese 1.000 Regressionen ausgeführt wurden, resultierten hispanische Korrekturkoeffizienten, die für jeden Vornamen spezifisch waren und angeben, wie hispanisch jeder war. Aus diesen Koeffizienten wurde eine“ Korrektur “ (entweder nach oben oder unten) für diesen Vornamen berechnet, indem das Verhältnis des nationalen hispanischen Bevölkerungsanteils zum im Ausland geborenen Bevölkerungsanteil verwendet wurde., Die Korrektur für jeden Namen wird jedoch durch das Verhältnis des hispanischen Bevölkerungsanteils und des im Ausland geborenen Bevölkerungsanteils begrenzt: durch 0.9496 am unteren Ende und durch 1.3460 am oberen Ende. Im Folgenden sind die Korrekturfaktoren für Top 1,000 Vornamen aufgeführt, geordnet nach ihrer hispanischen Herkunft.

X

Ich sage“ fast“, weil die SSA nur Daten für Namen veröffentlicht, die mindestens fünfmal in einem Jahr wiederholt werden, um die Privatsphäre zu schützen, so dass selbst Daten zur einheimischen Bevölkerung nicht perfekt sind., Nach unseren Berechnungen decken etwa 92.000 Vornamen etwa 80 Prozent der 2013-Bevölkerung oder etwa 255 Millionen Menschen ab.

X

Speziell haben wir 1.000 Regressionen durchgeführt, eine für jeden der 1.000 häufigsten Vornamen. Die in der Regression verwendeten Variablen waren einerseits die Häufigkeit, mit der dieser Name in jedem Staat auftrat (dies war die abhängige Variable), und andererseits der Anteil der hispanischen Bevölkerung des Staates (dies ist die unabhängige Variable)., Diese letztere Zahl stammt vom Census Bureau und berücksichtigt die Einwanderung, einschließlich undokumentierter Einwanderer. Nachdem diese 1.000 Regressionen ausgeführt wurden, resultierten hispanische Korrekturkoeffizienten, die für jeden Vornamen spezifisch waren und angeben, wie hispanisch jeder war. Aus diesen Koeffizienten wurde eine“ Korrektur “ (entweder nach oben oder unten) für diesen Vornamen berechnet, indem das Verhältnis des nationalen hispanischen Bevölkerungsanteils zum im Ausland geborenen Bevölkerungsanteil verwendet wurde., Die Korrektur für jeden Namen wird jedoch durch das Verhältnis des hispanischen Bevölkerungsanteils und des im Ausland geborenen Bevölkerungsanteils begrenzt: durch 0.9496 am unteren Ende und durch 1.3460 am oberen Ende. Im Folgenden sind die Korrekturfaktoren für Top 1,000 Vornamen aufgeführt, geordnet nach ihrer hispanischen Herkunft.

X

Ich sage“ fast“, weil die SSA nur Daten für Namen veröffentlicht, die mindestens fünfmal in einem Jahr wiederholt werden, um die Privatsphäre zu schützen, so dass selbst Daten zur einheimischen Bevölkerung nicht perfekt sind., Nach unseren Berechnungen decken etwa 92.000 Vornamen etwa 80 Prozent der 2013-Bevölkerung oder etwa 255 Millionen Menschen ab.

X

Es wird jedoch erneut auf Namen geklippt, die im Interesse der Privatsphäre mindestens 100 Mal angezeigt werden.

X

Speziell haben wir 1.000 Regressionen durchgeführt, eine für jeden der 1.000 häufigsten Vornamen., Die in der Regression verwendeten Variablen waren einerseits die Häufigkeit, mit der dieser Name in jedem Staat auftrat (dies war die abhängige Variable), und andererseits der Anteil der hispanischen Bevölkerung des Staates (dies ist die unabhängige Variable). Diese letztere Zahl stammt vom Census Bureau und berücksichtigt die Einwanderung, einschließlich undokumentierter Einwanderer. Nachdem diese 1.000 Regressionen ausgeführt wurden, resultierten hispanische Korrekturkoeffizienten, die für jeden Vornamen spezifisch waren und angeben, wie hispanisch jeder war., Aus diesen Koeffizienten wurde eine“ Korrektur “ (entweder nach oben oder unten) für diesen Vornamen berechnet, indem das Verhältnis des nationalen hispanischen Bevölkerungsanteils zum im Ausland geborenen Bevölkerungsanteil verwendet wurde. Die Korrektur für jeden Namen wird jedoch durch das Verhältnis des hispanischen Bevölkerungsanteils und des im Ausland geborenen Bevölkerungsanteils begrenzt: durch 0.9496 am unteren Ende und durch 1.3460 am oberen Ende. Im Folgenden sind die Korrekturfaktoren für Top 1,000 Vornamen aufgeführt, geordnet nach ihrer hispanischen Herkunft.,

X

Ich sage“ fast“, weil die SSA nur Daten für Namen veröffentlicht, die mindestens fünfmal in einem Jahr wiederholt werden, um die Privatsphäre zu schützen, so dass selbst Daten zur einheimischen Bevölkerung nicht perfekt sind. Nach unseren Berechnungen decken etwa 92.000 Vornamen etwa 80 Prozent der 2013-Bevölkerung oder etwa 255 Millionen Menschen ab.

X

Es wird jedoch erneut auf Namen geklippt, die im Interesse der Privatsphäre mindestens 100 Mal angezeigt werden.,

X

Das Census Bureau unterteilt Nachnamen in fünf Kategorien: Weiß, schwarz, Hispanisch, asiatisch, zwei Rassen und American Indian/Pacific Islander. Die Wachstumsraten in diesen fünf Kategorien wurden dann verwendet, um die Anzahl der Instanzen jedes Nachnamens zu aktualisieren.

×

Das beste von FiveThirtyEight, die Ihnen geliefert.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.