文件名称:names:美国历史名称和当前名称的参考数据集
文件大小:32.09MB
文件格式:ZIP
更新时间:2024-07-29 07:51:31
R
美国姓名数据集 婴儿姓名数据集以不同的方式呈现。 我发现自己经常回到这些数据。 其中包括对 2014 年在世人姓名频率的估计、自 1910 年以来出生姓名统计的各个部分以及性别概率。 在世公民姓名估计 通过将美国出生的出生姓名与 2014 年的人口年龄分布进行交叉引用,我估计了今天遇到一个名字的可能性。 这里有一些警告,最重要的是依赖婴儿名字并没有考虑到美国 4000 万外国出生的居民。 包括: data/us-living-estimate-names-by-sex-state-year.csv data/us-living-estimate-names-by-sex.csv 粗略估计的方法是P(alive|age)=P(age|alive)*P(alive)/P(age) ,其中P(age|alive)是当前人口占给定年龄的比例, P(age)是年份(2014-age)的婴儿
【文件预览】:
names-master
----.gitignore(16B)
----raw()
--------us-names-by-gender-state-year.csv(90.99MB)
--------us-population-by-age-and-sex-2014.csv(4KB)
----data()
--------us-names-by-decade.csv(1.91MB)
--------gender.json(179KB)
--------us-living-estimate-names-by-sex.csv(309KB)
--------us-names-by-year.csv(1.47MB)
--------us-names-by-gender.csv(437KB)
--------us-living-estimate-names-by-sex-state-year.csv(50.89MB)
--------us-likelihood-of-gender-by-name-in-2014.csv(170KB)
----scripts()
--------process-baby-names.R(4KB)
----README.md(3KB)
----lists()
--------top-us-male-names-alive-in-2014.txt(8KB)
--------us-50-gender-neutral-names.csv(1KB)
--------us-dead-names.txt(8KB)
--------top-us-female-names-alive-in-2014.txt(8KB)
--------top-us-male-names.txt(8KB)
--------top-us-female-names.txt(8KB)