lxml是Python中与XML及HTML相关功能中最丰富和最容易使用的库。lxml并不是Python自带的包,而是为libxml2和libxslt库的一个Python化的绑定。它与众不同的地方是它兼顾了这些库的速度和功能完整性,以及纯Python API的简洁性,与大家熟知的ElementTree API兼容但比之更优越!但安装lxml却又有点麻烦,因为存在依赖,直接安装的话用easy_install, pip都不能成功,会报gcc错误。
爬虫时通常要安装LXML,对于通过一下命令行
1
|
pip install lxml
|
出现如下错误的解决方法
1
|
lxml Unable to find vcvarsall.bat
|
1. 安装wheel,命令行运行:
1
|
pip install wheel
|
2.在这里下载对应的.whl文件(打开网址后ctrl+F,搜索LXML,选择对应版本,一般是win32,而不选win_arm64,即使电脑是win64)
http://www.lfd.uci.edu/~gohlke/pythonlibs/#lxml
3. 进入.whl所在的文件夹->shift+鼠标右键->在此处打开命令窗口
4.执行命令即可完成安装:
1
|
pip install lxml-3.6.0-cp35-cp35m-win32.whl
|
另外附上Linux系统中安装LXML的教程
因为lxml依赖的包如下:
libxml2, libxml2-devel, libxlst, libxlst-devel, python-libxml2, python-libxslt
所以安装步骤如下:
第一步: 安装 libxml2
1
|
$ sudo apt-get install libxml2 libxml2-dev
|
第二步: 安装 libxslt
1
|
$ sudo apt-get install libxlst libxslt-dev
|
第三步: 安装 python-libxml2 和 python-libxslt
1
|
$ sudo apt-get install python-libxml2 python-libxslt
|
第四步: 安装 lxml
1
|
$ sudo easy_install lxml
|