文件名称:mini-segmenter:轻量级的基于词典的中文文本分词器
文件大小:3.48MB
文件格式:ZIP
更新时间:2024-07-08 05:07:04
Python
Mini-segmenter lightweight lexicon/dictionary based Chinese text segmenter; it adds whitespace to separate and tokenize the text. For example, Input: 应有尽有的丰富选择定将为您的旅程增添无数的赏心乐事 Output: 应有尽有 的 丰富 选择 定 将 为 您 的 旅程 增添 无数 的 赏 心 乐事 The advantage of using a lexicon/dictionary for text segmentation is the ability to localize and scale according to the text's language or domain. Supporting the open source m