文件名称:classycn:文言文
文件大小:496.95MB
文件格式:ZIP
更新时间:2024-07-29 08:15:28
Python
classycn:古典汉语分句器。 数据 - 警告:数据文件夹大小超过 1G! data/sjw - 来自 Seungjeongwon Ilgi 的清理数据 - 来自古代韩国皇家秘书处的备忘录。 超过 2 亿个字符和 16,000 多个唯一字符。 data/24s - 除韩书和三国志外的中国“二十四史”的半清洗数据。 数据来自维基文库,可能包含嘈杂的标记。 2000 万个令牌,12k 个唯一身份。 数据/向量 - 使用 GloVe 和 Word2Vec 生成的词向量。 脚本 runhmm - 训练和测试来自 NLTK 的 HMM 标记器 runcrf - 从 CRF Suite 训练和测试 CRF 标记器 runlstm - 训练和测试双向 LSTM 标记器。 用 Theano 实现。 联系人:胡一舟@huyz725+github at gmail.com