不知道怎么回事）训练方法：在文件目录下pythonprocess_wiki.py zhwiki-latest-page

首先把需要下载的对象都列出来

1. 语料：下载地点是https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2，或者在这里找https://dumps.wikimedia.org/zhwiki/。这个文件只包罗了标题和正文，不包罗词条之间的链接信息，巨细约为1.3G。

2.WikiExtractor：用于从原始的xml文件中提取出标题和正文。地点https://github.com/attardi/wikiextractor/blob/master/WikiExtractor.py。因为这个文件不依赖其他文件和库，就直接在本地新建一个脚本，再把WikiExtractor.py中的源码复制过来就行了。

3.繁体简体转换工具：由于词条原文本中可能稠浊了繁体和简体，需要统一转换为简体。Linux下可以直接wget后在终端中使用，windows版本只能手动下载了，地点https://code.google.com/archive/p/opencc/downloads。下完直接解压就可以了。

此时有三个文件，分袂是zhwiki-latest-pages-articles.xml.bz2，，WikiExtractor.py，和文件夹opencc-0.4.2（链接：https://bintray.com/package/files/byvoid/opencc/OpenCC）。

1、首先我们要获得*的中文语料库，这个文件非常大，需要慢慢下载；

下载地点为：https://dumps.wikimedia.org/zhwiki//

2、通过https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2

我们就得到了1.45GB的中文语料zhwiki-latest-pages-articles.xml.bz2

3、里面内容以xml格局生存，所以我们后续还是需要做措置惩罚惩罚的（转换为text文档）

这里抽取有两种要领：

（1）process_wiki.py 源码进行抽取（但是我试了好几次都没有告成，导入之后解析的text文件没有反响，却是输出了一堆文档，不知道怎么回事）

训练要领：在文件目录下python process_wiki.py zhwiki-latest-pages-articles.xml.bz2 wiki.zh.text

（2）WikiExtractor.py源码训练：https://github.com/attardi/wikiextractor/edit/master/WikiExtractor.py

　　命令行进入当前文件夹输入python WikiExtractor.py -b 500M -o extracted zhwiki-latest-pages-articles.xml.bz2

训练功效如图（概略需要一个多小时吧，后面非常慢）：

不知道怎么回事）训练方法：在文件目录下pythonprocess_wiki.py zhwiki-latest-page

秒客网

不知道怎么回事）训练方法：在文件目录下pythonprocess_wiki.py zhwiki-latest-page

相关文章

不知道怎么回事） 训练方法：在文件目录下pythonprocess_wiki.py zhwiki-latest-page

相关文章

不知道怎么回事）训练方法：在文件目录下pythonprocess_wiki.py zhwiki-latest-page