cantonese-corpus:粤语分词工具

时间:2024-05-17 22:22:39
【文件属性】:

文件名称:cantonese-corpus:粤语分词工具

文件大小:2KB

文件格式:ZIP

更新时间:2024-05-17 22:22:39

Python

粤语分析 采用pycantonese作为粤语语料库以及预料分析工具 分词工具 采用jieba分词工具进行分词,jieba的分词字典需要从pycantonese里面获得 用法 ./data/init_dict.txt 初始化的分词,可以加入一些常用的词,格式是[单词] [词频] [词性]。 例如: 嗰度 120 r word_dictionary.py 创建分词字典,运行即可在./data/下面创建分词字典dict.txt word_segment.py 分词工具, 运行查看分词结果


【文件预览】:
cantonese-corpus-master
----requirements.txt(30B)
----data()
--------init_dict.txt(6B)
----word_segment.py(507B)
----README.md(489B)
----word_dictionary.py(1KB)

网友评论

  • 用户下载后在一定时间内未进行评价,系统默认好评。