搜索引擎为信息检索课程的实验设计,爬取山东大学新闻网,使用lucene等开源工具搭建小型搜索引擎。
要求 :
- Web网页信息抽取
以山东大学新闻网为起点进行网页的循环爬取,保 持爬虫在 view.sdu.edu.cn之内(既只爬取这个站点的网页),爬取的网页数量越多越好。索引构建
对上一步爬取到的网页进行结构化预处理,包括基于模板的信息抽取、分字段解析、分词、构建索引等。检索排序
对上一步构建的索引库进行查询,对于给定的查询,给出检索结果,明白排序的原理及方法。检索评价
对于给定的测试查询,利用百度的检索结果作为基准,对自己的检索结果进行评价,计算自己结果的查准率、查全率、F1值。
开发工具
- Eclipse jdk1.8
- Tomcat 7.0
- Lucene4.3
- python3.6
代码托管地址:
设计方案与过程
1. 信息爬取
爬取策略与分析
通过分析发现,山大新闻网的新闻都通过分类存放在首页上方的的二级导航中,首先,我们只爬取二级导航。
之后进入其中的一个二级导航,发现新闻在其中一条条的罗列出来,会有很多页,每一页都有,那么,我们只要获取页数,进行分页爬取,即可获取所有的新闻内容链接。
通过对新闻链接的比较发现,新闻页的链接形式为http://www.view.sdu.edu.cn/info/数字/数字.htm,则爬取时要提取这种形式的链接。
爬取过程
python爬虫使用的包为requests和BeautifulSoup。
在新闻的爬取过程中,首先获取新闻链接,然后进入链接爬取新闻内容,最后写入文本。我们可以设置一个集合set()存储爬取的链接,二级导航里每页的新闻会有重复,链接加入集合前要去重。新闻内容页的正则表达式为:
re.compile(r"info/\d+/\d+.htm")
前缀都是相同的http://www.view.sdu.edu.cn/
然后进行内容页的爬取,有些新闻页会出现乱码,链接打不开,或者格式错误等,这个时候只要抛出异常pass过去就行。我爬取了新闻的标题,链接,点击数,日期,作者,来源,正文,然后以此形式存储为txt文件,共爬取约近5万条新闻。爬取后每条新闻形式如下:
爬取内容中最难的应该是点击数的爬取,新闻点击数存放在javascript中
通过对不同页面分析,发现只有这个函数的第三个参数是变的,格式为_showDynClicks(“wbnews”, 1251758245, 新闻的id)。然后找到含有这个方法的js文件为dynclicks.js,找到相应的函数,发现函数中有一个链接,链接需要三个参数才能打开
把相应的三个参数写进链接,打开网页后内容即为点击数,爬取即可。
2.索引构建
根据文件来生成索引,如后缀为.txt等的文件:
1. FSDirectory.open(Paths.get(url));根据路径获取存储索引的目录。
2. new IndexWriter(Directory,IndexWriterConfig)创建索引
3. 索引指定目录的文件
4. 将文件写入lucene中的文档(Document)
分词工具使用lucene自带的分词工具StandardAnalyzer(),将新闻以对象的形式读入内存,然后根据需求将新闻的不同内容构建不同的域。对新闻的标题,正文,作者,来源构建了不同的域,并使用setboost()设置了不同的权值。
域 | 权值 |
---|---|
news_title | 8 |
news_content | 4 |
news_editor | 2 |
news_source | 1 |
/** * 获取文档,文档里再设置每个字段 * * @param f */
private Document getDocument(File f) throws Exception {
Document doc = new Document();
News news = getNews(f);
if(news!=null){
Field titlefield=new TextField("news_title", news.getTitle(), Store.YES);
doc.add(titlefield);
titlefield.setBoost(8);
Field editorfield=new TextField("news_editor", news.getEditor(), Store.YES);
doc.add(editorfield);
editorfield.setBoost(2);
Field sourcefield=new TextField("news_source", news.getSource(), Store.YES);
doc.add(sourcefield);
sourcefield.setBoost(1);
Field contentfield=new TextField("news_content", news.getContent(), Store.YES);
doc.add(contentfield);
contentfield.setBoost(4);
}
return doc;
}
3.索引查询
根据生成的索引来进行查询,索引在上一步的创建索引的目录中
- 设置索引查询目录
- 创建 indexSearcher. ,对要查询的query进行分词
- 对要查询的词去相应的域中进行比对,因为是全文搜索引擎,就要同时去不同的域中进行比对。
- 设置返回结果的条数的文档集合
- 根据不同的查询类型,设置对相应的时间和点击数的权重。
对要查询的词,同时在多个域进行比对,因为使用全文搜索,输入的查询词可能在标题中,也可能在正文中,作者中和来源中。
Lucene打分公式为:
score(q,d) = coord(q,d) · queryNorm(q) · ∑( tf(t in d) · idf(t)2 · t.getBoost() · norm(t,d) )
t in qnorm(t,d) = doc.getBoost() · lengthNorm(field) · ∏f.getBoost()
field f in d named as tDocument boost:此值越大,说明此文档越重要。
Field boost:此域越大,说明此域越重要。
lengthNorm(field) = (1.0 / Math.sqrt(numTerms)):一个域中包含的Term总数越多,也即文档越长,此值越小,文档越短,此值越大。
如果不进行设定,则Document Boost和Field Boost默认为1。
String[] fields = { "news_title", "news_content" ,"news_editor","news_source"};
Analyzer analyzer = new StandardAnalyzer(Version.LUCENE_43);// 标准分词
MultiFieldQueryParser parser2 = new MultiFieldQueryParser(Version.LUCENE_43, fields, analyzer);
Query query2 = parser2.parse(key);
TopDocs topDocs = searcher.search(query2, 500);
对新闻的查询时,不仅希望查到的内容匹配度高,也更希望查询到时间近的,热度(阅读量)更高的。所以通过对时间和点击数设置不同的权值来优化相关页面的排序,使其更符合查询的需求。
我们先用全文搜索查询到500条按照Lucene按照分数排序后的新闻链表做基础,原始权重为1,时间排序后的链表权重占0.2,点击数排序后的链表权重占0.1,进行重新计算后进行排序。
//通过时间进行排序
public class SortByTime implements Comparator{
public int compare(Object o1, Object o2) {
News n1=(News) o1;
News n2=(News) o2;
return n2.getTime().compareTo(n1.getTime());
}
}
//newsList是Lucene按时间排序后的新闻链表
//timenewsList是按时间排序后的新闻链表
//clicknewsList是按点击数排序后的新闻链表
//renewsList是重新计算权值后的链表
Collections.sort(timenewsList, new SortByTime());
Collections.sort(clicknewsList, new SortByClick());
for(int i=0;i<newsList.size();i++){
for(int j=0;j<timenewsList.size();j++){
for(int m=0;m<clicknewsList.size();m++){
if(newsList.get(i).equals(timenewsList.get(j))){
if(newsList.get(i).equals(clicknewsList.get(m))){
renewsList.get(i).sort=(int) ((i+0.2*j+0.1*m)/3);
}
}
}
}
}
Collections.sort(renewsList, new SortByRelece());//按照新权值重新排序,相关性最高
4.前端查询
- 使用jsp参考百度搜索页面编写用户界面
- 使用Lucene 的 Highlighter 类对返回文档中的关键字高亮,可以通过在关键字前面添加 css 片段来实现。
- 用户输入关键词以后提交表单,后台使用 servlet 接收用户查询, 之后把查询字符串作为搜索的 key 到索引库中搜索文档
- 根据用户的不同需求可以通过相关性,时间和热度进行查询