Lua_Wikipedia_Iterator:用于将 WikiExtractor.py 输出目录中的纯文本*文章提供到 Lua 的小型库。 对于使用潜在的庞大*语料库在 Torch 中训练语言模型非常有用,而无需将语料库加载到内存中

时间:2024-06-25 16:51:54
【文件属性】:

文件名称:Lua_Wikipedia_Iterator:用于将 WikiExtractor.py 输出目录中的纯文本*文章提供到 Lua 的小型库。 对于使用潜在的庞大*语料库在 Torch 中训练语言模型非常有用,而无需将语料库加载到内存中

文件大小:3KB

文件格式:ZIP

更新时间:2024-06-25 16:51:54

Lua

Lua_Wikipedia_Iterator 用于将 WikiExtractor.py 输出目录中的纯文本*文章提供到 Lua 的小型库。 对于使用潜在海量*语料库在 Torch 中训练语言模型非常有用,而无需将语料库加载到内存中。 示例用法 -- assuming you're in the directory above the cloned repository... package.path = package.path .. ';./Lua_Wikipedia_Iterator/?.lua' local wikipedia_corpus = require 'wikipedia_corpus' wc = wikipedia_corpus.new('Wikipedia_Text') ri = wc:make_random_iterator() -- iterate


【文件预览】:
Lua_Wikipedia_Iterator-master
----random_article_iterator.lua(866B)
----wikipedia_corpus.lua(5KB)
----LICENSE(33B)
----README.md(683B)

网友评论