言语和身份

时间:2024-03-01 10:31:23
【文件属性】:

文件名称:言语和身份

文件大小:7.04MB

文件格式:ZIP

更新时间:2024-03-01 10:31:23

JupyterNotebook

我们的话怎么说 注意:我用来获取旧推文(greptweet)的服务已淘汰。 这不再起作用。 考虑一下不同类别的人在其Twitter上最常用的词: 从左到右:科学家,作家,音乐家,演艺人员,运动员和政治家。 数据是结论性的:科学家思考多,爱少。 作者平等地思考和爱护; 音乐家和运动员只爱,不认为; 政客们显然都不做。 他们所有人都非常感谢并分享新事物,因此我从词云中删除了这两个词,以便看到更多有趣的词。 我们的话告诉别人我们是谁。 因此,我们可以接受一个人的书面文字,并有一个模型来预测他们的身份。 这个小项目是朝这个方向的尝试,训练数据来自twitter。 最终的模型当然可以与任何类型的文本一起使用,但是在诸如研究论文或Wikipedia之类的非正常语音环境中,效果并不理想。 数据 对于运动员,音乐家和演艺人员,我从获得了一百个关注最多的用户。 我从流行科学家和从,最受欢迎的作家,并


网友评论