在上篇文章中,我们已经采集新闻信息页的列表数据,接下来要做的操作就是从数据库中读取所需要采集的URL,进行页面抓取就行
新建一个content表
不过需要注意的一点是,不能再采用采集URL这种id递增的方法去采集,因为数据表中可能出现id断续,比如id=9,id=11,当采集到id=10的时候,URL是空白的,这样可能会导致采集到了空字段。
这里用到的一个技巧是数据库的查询语句,在我们采集完第一条数据的时候,判断数据库里是否还有大于此id的id编号,若有,读取一条,查询信息重复上面的工作。
具体代码如下:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
|
<?php
include_once ( "conn.php" );
$id =(int) $_GET [ 'id' ];
$sql = "select * from list where id=$id" ;
$result =mysql_query( $sql );
$row =mysql_fetch_array( $result ); //取得对应的url地址
$content = file_get_contents ( $row [ 'url' ]);
$pattern = "/<dd class=\"dataWrap\">(.*)<\/dd>/iUs" ;
preg_match( $pattern , $content , $info ); //获取内容存放info
echo $title = $row [1]. "<br/>" ;
echo $content = $info [0]. "<hr/>" ;
//插入数据库
$add = "insert into content(title,content) value('$title','$content')" ;
mysql_query( $add );
$sql2 = "select * from list where id>$id order by id asc limit 1" ;
$result2 =mysql_query( $sql2 );
$row2 =mysql_fetch_array( $result2 ); //取得对应的url地址
if ( $row2 [ 'id' ]){
echo "<script>window.location='content.php?id=$row2[0]'</script>" ;
}
?>
|
这样子我们所要的新闻内容就采集入库了,接下来只需要对数据的一些样式进行整理就行了。