Chinese-Names-Corpus:中文人名语料库。人名生成器。中文姓名,姓氏,名字,称呼,日本人名,翻译人名,英文人名。可用于中文分词、人名实体识别

时间:2021-05-10 07:46:12
【文件属性】:
文件名称:Chinese-Names-Corpus:中文人名语料库。人名生成器。中文姓名,姓氏,名字,称呼,日本人名,翻译人名,英文人名。可用于中文分词、人名实体识别
文件大小:17.62MB
文件格式:ZIP
更新时间:2021-05-10 07:46:12
corpus names dataset dict ner 中文人名语料库(Chinese-Names-Corpus) 业余项目“萌名NameMoe(一个基于语料库技术的取名工具)”的副产品。 萌名手机网页测试版: ,欢迎体验。 不定期更新。只删词,不加词。 可用于中文分词、人名识别。 请勿将本库打包上传其他网站挣积分,已上传的请配合删除,谢谢! 中文常见人名(Chinese_Names_Corpus) 数据大小:120万。 语料来源:从亿级人名语料中提取。 数据清洗:已清洗,但仍存有少量badcase。 新增人名生成器。 中文古代人名(Ancient_Names_Corpus) 数据大小:25万。 语料来源:多个人名词典汇总。 数据清洗:已清洗。 中文姓氏(Chinese_Family_Name) 数据大小:1千。 语料来源:从亿级人名语料中提取。 数据清洗:已清洗。 中文称呼(Chinese_Relationship) 数据大小:5千,称呼词根
【文件预览】:
Chinese-Names-Corpus-master
----Japanese_Names_Corpus()
--------Japanese_Names_Corpus(18W).txt(2.3MB)
--------Japanese_Names_Corpus(1W).xlsx(464KB)
----English_Names_Corpus()
--------English_Names_Corpus(2W).txt(230KB)
--------English_Cn_Name_Corpus_Gender(48W).txt(11.01MB)
--------English_Cn_Name_Corpus(48W).txt(5.55MB)
----Chinese_Names_Corpus()
--------Ancient_Names_Corpus(25W).txt(2.51MB)
--------Chinese_Names_Corpus_Gender(120W).txt(16.14MB)
--------Chinese_Family_Name(1k).xlsx(27KB)
--------Chinese_Names_Corpus(120W).txt(11.5MB)
--------Chinese_Relationship(4.8k).xlsx(2.6MB)
----CNAME(16B)
----LICENSE(11KB)
----README.md(3KB)
----萌名MoeName生成器V1.0.xlsx(53KB)
----_config.yml(29B)
----Chinese_Dict_Corpus()
--------ChengYu_Corpus(5W).txt(709KB)

网友评论

  • 用户下载后在一定时间内未进行评价,系统默认好评。