文件名称:ethnicolr:根据名称中的字符序列预测种族和种族
文件大小:48.88MB
文件格式:ZIP
更新时间:2024-06-12 12:19:06
machine-learning names lstm race ethnicity
Ethnicolr:根据姓名预测种族和种族 我们利用Skiena和同事收集的美国人口普查数据,佛罗里达州投票登记数据和Wikipedia数据,根据姓氏和姓氏或姓氏来预测种族和种族。 我们预测比赛的粒度取决于数据集。 例如,斯基耶纳(Skiena)等人。 Wikipedia数据是种族级别的,而我们在模型中使用的普查数据(原始数据具有美洲原住民和双种族的其他类别)仅在非西班牙裔白人,非西班牙裔黑人,亚裔和西班牙裔之间分类。 DIME比赛 有关中所有人种族的数据,请参见。基本的python脚本,请参见 注意事项和注意事项 如果您在2010年从美国挑选了一个姓氏为'Smith'的随机人,并要求我们猜测此人的种族(根据人口普查粗略衡量),则最佳猜测将基于汇总的人口普查文件中的数据。 这是贝叶斯最佳解决方案。 那么,姓氏仅用于预测模型有什么用? 一些事情-如果您想更精确地推算种族,请猜测不同年份的人
【文件预览】:
ethnicolr-master
----MANIFEST.in(72B)
----.travis.yml(212B)
----README.rst(15KB)
----docs()
--------make.bat(782B)
--------Makefile(610B)
--------source()
----package.json(616B)
----ethnicolr()
--------models()
--------census_ln.py(3KB)
--------utils.py(2KB)
--------data()
--------pred_wiki_name.py(4KB)
--------pred_census_ln.py(4KB)
--------tests()
--------pred_fl_reg_name.py(4KB)
--------pred_wiki_ln.py(4KB)
--------__init__.py(443B)
--------examples()
--------pred_fl_reg_ln.py(4KB)
--------pred_nc_reg_name.py(5KB)
----tox.ini(93B)
----TODO(242B)
----LICENSE(1KB)
----appveyor.yml(564B)
----recipe()
--------bld.bat(107B)
--------meta.yaml(420B)
--------build.sh(122B)
----setup.cfg(88B)
----requirements.txt(73B)
----setup.py(6KB)
----.gitignore(159B)
----readthedocs.yml(73B)
----.pep8speaks.yml(222B)
----.gitattributes(197B)