文件名称:句子:基于神经网络的文本生成的无监督文本标记器
文件大小:11.35MB
文件格式:ZIP
更新时间:2024-03-16 06:58:10
natural-language-processing neural-machine-translation word-segmentation C++
句子片段 SentencePiece是一种无监督的文本标记器和去标记器,主要用于基于神经网络的文本生成系统,其中在神经模型训练之前预先确定了词汇量。 SentencePiece实现子字单元(例如,字节对编码(BPE) [ ])和unigram语言模型[ ]),并从原始句子扩展了直接培训。 SentencePiece允许我们创建一个不依赖于特定于语言的预处理/后处理的纯粹的端到端系统。 这不是Google的官方产品。 技术亮点 纯粹由数据驱动:SentencePiece从句子中训练标记化和反标记化模型。 并非总是需要预加( / / )。 与语言无关:SentencePiece将句子视为Unicode字符序列。 没有依赖于语言的逻辑。 多个子词算法: BPE [ ]和unigram语言模型[ 支持。 子词正则化:SentencePiece实现子词正则和丢弃的子词采样,有助于提