
stanford nltk在python中如何安装使用一直都很神秘,看了一些帖子感觉讳莫如深。研究了几天,参考《nlp汉语自然语言处理原理与实践》,发现方法如下:
1.安装JAVA 8+环境。下载地址:
http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html
我下载的是Java SE Development Kit 8u171。
根据自己的系统百度一下如何“配置java环境变量”,注意不要清空原来的环境变量啊。
2.安装Stanford nlp 语言程序包,地址如下:
https://stanfordnlp.github.io/CoreNLP/
先点击“Download CoreNLP 3.9.1”下载(之后版本会有变吧)。然后,就在这个链接下面有个地方可以下载各种语言的jar包,下载中文的。900多M,很大。
3. 解压以上nlp语言程序包以及中文语言包,然后根据需要在python代码中给出文件的位置。转载一下以下文章,把可用的功能写的很清楚:
http://www.cnblogs.com/baiboy/p/nltk1.html
譬如中文句法分析:
from nltk.parse.stanford import StanfordDependencyParser
chi_parser = StanfordDependencyParser(r"E:\tools\stanfordNLTK\jar\stanford-parser.jar",r"E:\tools\stanfordNLTK\jar\stanford-parser-3.6.0-models.jar",r"E:\tools\stanfordNLTK\jar\classifiers\chinesePCFG.ser.gz")
res = list(chi_parser.parse(u'四川 已 成为 中国 西部 对外开放 中 升起 的 一 颗 明星'.split()))
for row in res[0].triples():
print(row)
其中用到了
stanford-parser.jar
stanford-parser-3.6.0-models.jar
chinesePCFG.ser.gz
待续