Python3下的NLTK及nltk_data安装问题（Ubuntu环境）

测试环境：Ubuntu Kylin 14.04

Python版本：3.4.3

在使用Python强大的第三方库nltk进行一些自然语言处理工作的时候遇到了一些困难，折腾一番总算解决。现在在这里记录一下，当作备忘。

网上找到挺多安装nltk的教程，但经测试，好像都是适用于Python2的，对于Python3,就勉为其难了。这里的主要问题是，前辈们分享的nltk_data包是不兼容Python3的。

所以我的解决方案是：

到https://github.com/nltk/nltk_data下载gh-pages分支，里面的Packages就是我们要的资源。（注：截至2016年3月24日时本方案仍有效）

详细情况记录如下：

1.安装nltk。截至今天，安装的是nltk3.2，在有pip这些工具的情况下，安装这些库变得非常简单：

pip install nltk

另外官方的安装说明还附带了numpy，一个“赛Matlab的Python开源的数值计算扩展库”，说不定以后用得上：

pip install numpy

Python3下的NLTK及nltk_data安装问题（Ubuntu环境）

2.安装nltk_data。nltk_data是必要的nltk数据包，实现分词，词性标注，命名实体识别等功能都要用到这个数据包：

进入Python Shell后只需要两句就可以进入nltk_data的下载

$python

>>>import nltk

>>>nltk.download()

然后就可以按提示进行了。

Python3下的NLTK及nltk_data安装问题（Ubuntu环境）

重点是，下载会很慢或干脆卡住。此时需要手动下载nltk_data包。

下载方法：到https://github.com/nltk/nltk_data下载gh-pages分支，里面的Packages就是我们要的资源。

里面有部分是压缩包，需要解压。

将Packages文件夹改名为nltk_data，放在以下任一路径：
/usr/lib
/usr/local/lib
用户目录（比方说可能是/home/bennu）
其他nltk可以识别的路径，出错时有可能会在出错信息看到。

为了方便，我已将此文件包打包处理好上传到百度网盘。
http://pan.baidu.com/s/1i4soBTb 密码：u3kn

剩下就是继续努力学习了～

秒客网

Python3下的NLTK及nltk_data安装问题（Ubuntu环境）

相关文章