phP的抓取网站类库.zip

时间:2022-07-31 04:19:33
【文件属性】:

文件名称:phP的抓取网站类库.zip

文件大小:47KB

文件格式:ZIP

更新时间:2022-07-31 04:19:33

类库下载-phP的抓取网站类库

<?php header("Content-Type: text/html; charset=UTF-8"); require("phpQuery.php"); $hj = QueryList::Query('http://mobile.csdn.net/',array("title"=>array('.unit h1','text'))); //dump($hj->data); $data = QueryList::Query('http://cms.querylist.cc/bizhi/453.html',array(     'image' => array('img','src')     ))->data; // $data = QueryList::Query('http://cms.querylist.cc/google/list_1.html',array(     'link' => array('a','href')     ))->data; $page = 'http://cms.querylist.cc/news/566.html'; $reg = array(     'title' => array('h1','text'),     'date' => array('.pt_info','text','-span -a',function($content){         $arr = explode(' ',$content);         return $arr[0];     }),     'content' => array('.post_content','html','a -.content_copyright -script',function($content){                   $doc = phpQuery::newDocumentHTML($content);             $imgs = pq($doc)->find('img');             foreach ($imgs as $img) {                 $src = 'http://cms.querylist.cc'.pq($img)->attr('src');                 $localSrc = 'w/'.md5($src).'.jpg';                 $stream = file_get_contents($src);                 file_put_contents($localSrc,$stream);                 pq($img)->attr('src',$localSrc);             }             return $doc->htmlOuter();     })     ); $rang = '.content'; $ql = QueryList::Query($page,$reg,$rang); $data = $ql->getData(); dump($data);支持抓取网站,进行爬虫,非常强大,是一个基于PHP的服务端开源项目,它可以让PHP开发人员轻松处理DOM文档内容,比如获取某新闻网站的头条信息。更有意思的是,它采用了jQuery的思想,你可以像使用jQuery一样处理页面内容,获取你想要的页面信息。


【文件预览】:
phP的抓取网站类库
----php中文网下载站.url(114B)
----2.php(2KB)
----phpQuery.php(203KB)
----php中文网免费下载站.txt(219B)

网友评论