thinkphp自动采集怎么实现

程序猿 • 2025年11月8日 19:09:09 • 用户投稿 • 阅读 1

thinkphp实现自动采集功能的三种方法：

方法一：QueryList

个人感觉比较好用，采集详情比较不错的选择，但是采集复杂一点的列表，不好用。具体使用：

立即学习“PHP免费学习笔记（深入）”；

控制器示例：

public function index(){    // 使用采集类    // 使用手册 ：http://www.php.cn/php/php-QueryList3-ThinkPHP.html    import('Org.QL.QueryList');    $url = "http://www.zyctd.com/gqqg/";    $reg = array();    $reg['title'] = array('.sulist_title','text');    $reg['shuliang'] = array('.su_li1','html');    $obj = new QueryList($url,$reg);    $data = $obj->jsonArr;    // foreach($data as $v){    //     echo "
".$v['title'].'___'.$v['shuliang']."
";    // }    p($data);}

相关推荐：《ThinkPHP教程》

方法二：simple_html_dom

这个方法比较适合采集一点结构简单的页面，HTML标签的类名比较明确的页面，还不错。具体使用：

集简云

软件集成平台，快速建立企业自动化与智能化

22 查看详情

控制器示例：

public function index(){    // 参考文档：http://microphp.us/plugins/public/microphp_res/simple_html_dom/manual.htm#section_quickstart    // 下载地址：https://github.com/samacs/simple_html_dom/edit/master/simple_html_dom.php    // 使用方法：http://www.thinkphp.cn/topic/21635.html    import("Org.Util.simple_html_dom", '', '.php');    $html = file_get_html('http://www.zyctd.com/gqqg/');    $ret = $html->find('.supply_list_box ul',0)->first_child();    foreach($ret as $v){        echo $v;    };}

方法三：获取页面HTMl，进行正则匹配采集

举例一个Demo：

采集一个页面：

http://www.zyctd.com/gqqg/

我要获取上面的四个信息：标题，数量，时间，跳转链接。

获取这些信息，通过上面两种方法都采集不到，最后才选用的正则来采集。具体方法：

public function index(){    $url = "http://www.zyctd.com/gqqg/";    // http://www.zyctd.com/gqqg-p1.html    $supplyDB = M('supply');        $urlList = array();    $array = array();    for($x=1; $xgetInfo($v);        array_push($array,$curPageList);    };    foreach($array as $v){        foreach($v as $vv){            //echo $vv['title']."__".$vv['weight']."__".$vv['time']."
";            $data = array();            $data['title'] = $vv['title'];            $data['weight'] = $vv['weight'];            $data['add_time'] = $vv['add_time'];            $data['url'] = $vv['url'];            //$res = $supplyDB->add($data);            //echo $res;            echo "".$vv['title']."            ".$vv['weight']."            ".$vv['add_time']."            ".$vv['url']."
";        }    }        // 获取信息        //$curPageList = $this->getInfo($html);        //p($curPageList);}private function getInfo($url){    $html = $this->getHtml($url);    $array = array();    // 匹配所有的标题    preg_match_all("#(.*?)

以上就是thinkphp自动采集怎么实现的详细内容，更多请关注创想鸟其它相关文章！

thinkphp自动采集怎么实现

关于作者

程序猿签约作者

发表回复