文件名称:Company-Names-Corpus:公司名语料库。机构名语料库。公司简称,缩写,品牌词,企业名。可用于中文分词、机构名实体识别
文件大小:30.84MB
文件格式:ZIP
更新时间:2024-05-31 21:19:34
company corpus dataset dict ner
公司名语料库(Company-Names-Corpus) 业余项目“萌名NameMoe(一个基于语料库技术的取名工具)”的副产品。 萌名手机网页测试版: ,欢迎体验。 不定期更新。只删词,不加词。 可用于中文分词、机构名识别。 公司名语料库(Company-Names-Corpus) 数据大小:480万。 语料来源:多个词典汇总。 数据清洗:已清洗,但仍存有大量badcase。 机构名语料库(Organization-Names-Corpus) 数据大小:110万。 语料来源:多个词典汇总。 数据清洗:已清洗,但仍存有大量badcase。 公司简称、品牌词等(Company-Shorter-Form) 数据大小:28万。 语料来源:多个词典汇总。 数据清洗:已清洗,但仍存有大量badcase。 为什么是压缩包: 未压缩的文件有200多M,压缩后只有30M左右,我网速不好,就先压为敬。 请勿
【文件预览】:
Company-Names-Corpus-master
----公司名字频统计.xlsx(240KB)
----Organization-Names-Corpus(110W).rar(4.86MB)
----Company-Shorter-Form(28W).txt(2.65MB)
----LICENSE(11KB)
----README.md(2KB)
----Company-Names-Corpus(480W).rar(24.8MB)