本章开始导入语句
from __future__ import division import nltk,re,pprint
3.1从网络和硬盘访问文本
电子书
from urllib import urlopen url=”http://www.gutenberg.org/files/2554/2554.txt” raw=urlopen(url).read() #如果使用了Internet代理,需要手工指定代理 proxies={‘http’:’http://www.someproxy.com:3128’} raw=urlopen(url,proxies=proxies).read() #对得到的文本分词操作 tokens=nltk.word_tokenize(raw)
处理的HTML
url=”http://news.bbc.co.uk/2/hi/health/2284783.stm” html=urlopen(url).read() #清楚不必要的标签和内容 raw=nltk.clean_html(html) #分词 tokens=nltk.word_tokenize(raw) #转换类型 text.=nltk.Text(tokens) #只有转换了类型,才可以使用一些有意义的函数 text.concordance(‘gene’)
处理搜索引擎的结果
网络:被看作未经标注的巨大的语料库
搜索引擎的主要优势:
1、规模,一个庞大的文件集,很容易找到感兴趣的语言模式
2、容易使用
缺点:
1、允许的搜索方式范围收到严格限制,一般只允许搜索单个词或者词串
2、搜索引擎给出的结果不一致
3、搜索结果中的标记会不可预料的改变
处理RSS订阅
可以使用第三方Python库Universal Feed Parser来访问博客
读取本地文件
f=open(‘document.txt’) raw=f.read() #检查当前目录 import os os.llistdir(‘.’) #分行读取一个文件 for line in f: print line.strip()
从PDF、MS Word及其他二进制格式中提取文本
第三方函数库pypdf和pywin32
捕获用户输入
s=raw_input(“Enter some text:”)
NLP的流程