文件名称:Japanese-BPEEncoder:日语BPEEncoder
文件大小:280KB
文件格式:ZIP
更新时间:2024-05-29 15:10:58
Python
日语BPE编码器 日语字符串(UTF-8)的编码器/分词器。 将UTF-8分成字符对,并将其编码为序列。 日语版BPE编码器 从功能上讲,它类似于执行单词分离的Tokenizer,但根据诸如BERT和GPT-2之类的机器学习模型中的术语,它被称为Encoder。 实际上,它是Tokenizer和Encoer的组合,它划分日语字符串并将它们同时映射为整数字符串。 分词+编码 今日は日曜焼き肉定食をたべる → [205, 17450, 3201, 17661, 15707, 16960, 6301, 7961, 1132] 为什么形态学分析没有用 在传统的自然语言处理中,通过依存关系分析将句子分为语素。 形态分析 すもももももももものうち → すもも|も|もも|も|もも|の|うち 这并不是绝对糟糕,但是依存关系分析基本上是基于粒子和名词数据库通过人工创建的基于规则的处理来分析句子。 在诸如B
【文件预览】:
Japanese-BPEEncoder-master
----README.md(7KB)
----.github()
--------FUNDING.yml(644B)
----bpeja.png(206KB)
----encode_bpe.py(6KB)
----emoji.json(185KB)
----LICENSE.txt(1KB)
----ja-bpe.txt(125KB)