文件名称:sentencepiece:基于Sentencepiece的Byte Pair Encoding Unigram建模的R包
文件大小:2.89MB
文件格式:ZIP
更新时间:2024-06-18 09:27:46
natural-language-processing byte word-segmentation sentencepiece C++
句子 这个存储库包含一个 R 包,它是一个围绕句子 C++ 库的 Rcpp 包装器 句子是一个无监督的分词器,它允许使用字节对编码和 Unigrams 执行文本分词 它基于论文SentencePiece: A simple and languagedependent subword tokenizer and detokenizer for Neural Text Processing [ ] 句子 C++ 代码可从。 这个包目前包含版本 v0.1.84 这个 R 包具有与 R 包类似的功能 特征 R 包允许您 构建字节对编码 (BPE)、Unigram、Char 或 Word 模型 应用模型对文本进行编码 应用模型将 id 解码回文本 下载基于*的预训练句子模型 安装 对于普通用户,从本地 CRAN 镜像install.packages("sentencepiece")安装包