【文件属性】:
文件名称:electra
文件大小:41KB
文件格式:ZIP
更新时间:2021-03-17 20:53:41
Python
伊莱克特拉
Wikipedia上的数据集:
Fazer或下载;
使用脚本进行通用转换,然后将WikiExtractor转换为xml em或documento json;
python - m WikiExtractor ptwiki - latest - pages - articles . xml . bz2 - - json
Lar o arquivo json com o comando abaixo ao inpésde usar o pandas devido ao tamanho do arquivo:
with open ( 'text/wiki.json' ) as json_file :
data = json_file . readlines ()
data = list ( map ( json . loads , data
【文件预览】:
electra-main
----.gitignore(2KB)
----01 - Criar dataset Wiki.ipynb(6KB)
----WikiExtractor.py(116KB)
----README.md(704B)
----02 - Criar vocabuario.ipynb(3KB)
----03 - Criar pré-treino.ipynb(10KB)