文件名称:text2gender:根据他们的文字预测作者的性别
文件大小:2.33MB
文件格式:ZIP
更新时间:2024-05-23 09:26:47
machine-learning neural-network text-classification gender-classification Python
根据文字对作者进行性别分类。 使用风险自负,没有得到很好的支持/记录在案的项目。 在r / AskMen和r / AskWomen的Reddit帖子上接受过培训。 如果我自己可以这么说,这是一种获取标签数据的巧妙但懒惰的方法。 培训是直接针对来自这两个子实体的帖子进行的,但这引入了自己的偏见。 也许在r / AskWomen上发帖的女性在subreddit内但在其外部没有独特的风格。 为了解决这个问题,您可以从r / AskWomen中找到“女性”用户,但要查看r / AskWomen以外的用户职位。 理想情况下,在subreddit中,男人和女人都像r / AskReddit一样来访问。 对于真实世界的数据,必须进一步调查准确率。 长度 准确性 例子 <250 67.56% 48481 200至500 66.02% 30715 500至1000 69.22% 136
【文件预览】:
text2gender-master
----features.py(1KB)
----.gitignore(31B)
----data()
--------npos_scores.json(10.56MB)
--------ntoken_scores.json(1.14MB)
--------model_weights.npy(168B)
--------model_biases.npy(132B)
----transform.py(1KB)
----Pipfile.lock(27KB)
----helper.py(2KB)
----download.py(2KB)
----README.md(2KB)
----Pipfile(226B)
----generate_scores.py(3KB)
----generate_model.py(4KB)
----predict.py(405B)