update 2017.07: 添加了对 Python 3 的支持
这可能是互联网上第一篇详细介绍 Windows 下安装新版本 Pylucene 的文章。PyLucene 4 以下原本都有提供 windows 下的安装包,但是新版本没有了。
网上那些说 Pylucene 在 Windows 系统上只能装 32 位版本的文章,纯属以讹传讹。
本文允许带修改的转载,但转载时请注明原文出处: lxsay.com
本文也适用于 32 位的 Windows 系统,只要把安装的软件都改成 32 位的版本就可以了
前提条件:
安装 python ( 本文以 Python 2.7.13 为例,Python 3 也可以 ) 环境(推荐 Anaconda,自带 gensim, numpy, scipy 等在 Windows 下比较难安装的库).
安装 JDK 1.8 ( 64 位版本) 并配置环境变量 (推荐按照这篇文章操作:),并且配置JRE的环境变量(将 JAVA_HOME/jre/bin/server 这个路径也加进 path 环境变量)
安装 VC for Python 2.7 ( ?id=44266 )。如果是 Python 3,安装 Visual C++ 2015 Build Tools ()
步骤1. 安装 Apache Ant 并配置环境变量(在 path 环境变量中添加 Ant 安装主目录下的 bin 目录路径,和后面配置的 ant 可执行文件路径不一样)
步骤2. 安装 cygwin 64 bit (用于在 windows 系统中执行 linux 的命令),安装时在选择 packages 的窗口将 “Devel” 项由 “Default” 改为 “Installed”。 并且配置 cygwin 64 的环境变量(在 path 环境变量中添加 cygwin 64 安装主目录下的 bin 目录路径),重启电脑使之生效
步骤3. 下载并解压 pylucene 的 源代码 (一般解压出来的文件夹叫作 pylucene-6.4.1 之类)
步骤4. 进入 pylucene 安装文件夹下的 JCC 文件夹,修改 setup.py文件, 在 CFLAGS 配置这里,在 ‘win32‘ 后面添加 "/bigobj" 这个参数,如下面所示
CFLAGS = {
‘darwin‘: [‘-fno-strict-aliasing‘, ‘-Wno-write-strings‘,
‘-mmacosx-version-min=10.5‘],
‘ipod‘: [‘-Wno-write-strings‘],
‘linux2‘: [‘-fno-strict-aliasing‘, ‘-Wno-write-strings‘],
‘sunos5‘: [‘-features=iddollar‘,
‘-erroff=badargtypel2w,wbadinitl,wvarhidemem‘],
‘win32‘: ["/EHsc", "/D_CRT_SECURE_NO_WARNINGS","/bigobj"], # MSVC 9 (2008)
‘mingw32‘: [‘-fno-strict-aliasing‘, ‘-Wno-write-strings‘],
‘freebsd7‘: [‘-fno-strict-aliasing‘, ‘-Wno-write-strings‘],
}
如果不添加 "/bigobj" 参数, 在编译 pylucene 时会提示文件过大,编译器无法编译
update: 在 pylucene 6.5 中,这个问题已经被解决,不需要添加此参数
步骤5. 在命令行下进入 jcc 文件夹,输入 python setup.py build ,如果没有错误信息,继续输入 python setup.py install 安装 JCC 。重启电脑
步骤6. 进入 pylucene-6.2.0 文件夹(根据要安装的版本而定,比如 pylucene-6.4.1 之类),修改 Makefile文件
首先注释掉(通过在每行前面添加‘#‘符号) 这一段默认配置
# Mac OS X 10.12 (64-bit Python 2.7, Java 1.8)
PREFIX_PYTHON=http://www.mamicode.com/Users/vajda/apache/pylucene/_install
ANT=http://www.mamicode.com/Users/vajda/tmp/apache-ant-1.9.3/bin/ant
PYTHON=$(PREFIX_PYTHON)/bin/python
JCC=$(PYTHON) -m jcc.__main__ --shared --arch x86_64
NUM_FILES=8
然后插入
PREFIX_PYTHON=D:/Progra~2/Anaconda2
ANT=D:/apache-ant-1.9.7/bin/ant
JAVA_HOME=C:/Progra~1/Java/jdk1.8.0_101
PYTHON=$(PREFIX_PYTHON)/python.exe
#JCC=$(PYTHON) -m jcc --shared --find-jvm-dll
JCC=$(PYTHON) -m jcc --shared
NUM_FILES=8
update: 在 pylucene 6.5 中 JCC 项不再接受 shared 参数,因此应该改为 JCC=$(PYTHON) -m jcc, 否则安装时会出错
其中 PREFIX_PYTHON 是 python 的安装主目录,如果你创建了一个新的 Anaconda 环境并在该环境下编译,请将 PREFIX_PYTHON 换成该环境的根目录 (一般是 Anaconda2/envs/环境名)
ANT 是 ant 的二进制可执行文件的路径(注意不是安装目录而是可执行文件路径)
NUM_FILES 参数用于指定中间文件的分割数, 使得编译器可以处理大的文件,,但是如果修改为其他数值可能会引起错误。 因此最好的办法还是在前一步指定 vc的参数 "/bigobj"
另外需要注意的是,Makefile 不接受带有空格的路径,因此如果路径带有空格的话请用命令行使用的缩写路径(又叫做 dos path, 比如上面这段就采用了这种写法)
步骤7. 运行 make 进行编译(注意:如果之前没有安装并配置 cygwin64 的话,这一步会无法进行下去)
步骤8. 编译完成后运行 make test 进行测试,由于项目的一些 bug,有几个检测 PyLucene 异常抛出的测试不会通过,但并无大碍。
步骤9. 运行 make install 进行安装
常见问题:
1. 编译安装 JCC 时无法使用 MSVC 编译,python 总是自动用 gcc 进行编译:要改成用 visual studio c++ 编译的话,需要编辑 python安装主目录\Lib\distutils下的distutils.cfg文件,将文件内容修改为下面所示
[build]
compiler=msvc
[build_ext]
compiler=msvc
其实本质上就是修改 setuptools 的配置文件