如何用PHP和CURL高效采集新闻列表及详情?

如何用php和curl高效采集新闻列表及详情?

本文将阐述如何利用PHP和cURL高效抓取目标网站的新闻列表和新闻详情,并展示最终结果。 关键在于高效运用cURL获取数据,处理相对路径并提取所需信息。

首先,解决第一个挑战:从列表页(例如,页面1)提取新闻标题和完整URL。 代码示例如下:

<?php$url = 'http://www.xx.com/news'; // 请替换为实际列表页URL$ch = curl_init($url);curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);curl_setopt($ch, CURLOPT_USERAGENT, "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36");$html = curl_exec($ch);curl_close($ch);// 使用正则表达式提取新闻标题和链接preg_match_all('/https://www.php.cn/link/01bebc8e971d09cb90cf5756b340f24c/i', $html, $matches);$newslist = [];foreach ($matches[1] as $key => $href) {    $title = $matches[2][$key];    // 处理相对路径    $completeurl = 'http://www.xx.com' . $href; // 将相对路径转换为完整路径    $newslist[] = ['title' => $title, 'url' => $completeurl];}// 打印新闻列表print_r($newslist);?>

这段代码首先使用cURL获取列表页的HTML内容。然后,运用正则表达式/https://www.php.cn/link/01bebc8e971d09cb90cf5756b340f24c/i 提取标签中的href属性(链接)和文本内容(标题)。 关键在于将提取到的相对路径与网站根域名拼接成完整的URL。

接下来,解决第二个挑战:对每个新闻链接进行二次抓取,提取新闻内容。 我们可以改进上述代码:

立即学习“PHP免费学习笔记(深入)”;

<?php// ... (前面代码不变) ...foreach ($newslist as $news) {    $ch = curl_init($news['url']);    curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);    curl_setopt($ch, CURLOPT_USERAGENT, "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36");    $detailHtml = curl_exec($ch);    curl_close($ch);    // 使用正则表达式提取新闻内容 (根据实际HTML结构调整)    preg_match('/
(.*?)/is', $detailHtml, $contentMatch); $content = isset($contentMatch[1]) ? strip_tags($contentMatch[1]) : ''; // 处理内容可能不存在的情况,并去除HTML标签 // 展示结果 echo "标题: " . $news['title'] . "

"; echo "链接: " . $news['url'] . "

"; echo "内容: " . $content . "


";}?>

这段代码遍历$newslist,对每个新闻链接再次使用cURL获取详情页HTML,并使用正则表达式/

(.*?)/is 提取新闻内容(请根据目标网站的实际HTML结构调整正则表达式)。isset($contentMatch[1]) ? strip_tags($contentMatch[1]) : '' 确保即使没有匹配到内容也不会报错,并且使用strip_tags()函数去除HTML标签,只保留文本内容。 最后,代码将标题、链接和内容打印出来。

请注意,http://www.xx.com/news 需要替换为实际的列表页URL,并且正则表达式需要根据目标网站的HTML结构进行调整。 为了提高效率和健壮性,建议使用更高级的HTML解析库,例如DOMDocument。

以上就是如何用PHP和CURL高效采集新闻列表及详情?的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/1255411.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年12月10日 02:57:28
下一篇 2025年12月10日 02:57:39

相关推荐

  • 优化WooCommerce产品发布时长显示:基于DateTime的精确计算教程

    本教程旨在解决WooCommerce中产品发布时长显示不准确的问题。通过利用PHP内置的DateTime和DateInterval类,我们可以精确计算产品自发布以来经过的年、月、日,有效避免了闰年和月份天数差异导致的计算偏差,确保显示结果的准确性和可靠性,提升用户体验。 概述:产品发布时长计算的挑战…

    2025年12月10日
    000
  • 精确计算 WooCommerce 产品上架时长:年、月、日显示教程

    本教程详细介绍了如何在 WooCommerce 中准确显示产品自发布以来经过的年、月、日时长。针对传统时间戳计算可能出现的闰年和月份天数差异导致的误差,我们采用 PHP 内置的 DateTime 和 DateInterval 对象进行精确计算。文章将提供完整的代码示例,并深入解析其工作原理,帮助您在…

    2025年12月10日
    000
  • 如何为PHP环境添加安全限制 PHP环境防止脚本攻击设置

    php环境的安全限制和防攻击设置,核心在于收紧权限、过滤输入、限制执行。1. 通过php.ini配置禁用危险函数(如exec、eval)、限制文件访问路径(open_basedir)、关闭远程文件操作(allow_url_fopen/off)、隐藏php版本(expose_php=off)、记录错误…

    2025年12月10日 好文分享
    000
  • Laravel 集合分块处理与多列布局实现

    本文将详细介绍如何在Laravel应用中利用集合的chunk方法,高效地将数据集合分块处理,并实现多列布局展示。通过具体代码示例,您将学会如何将大量数据按指定数量分割,从而优化前端渲染和用户体验,避免手动循环控制的复杂性,实现清晰、结构化的数据呈现。 在Web应用开发中,尤其是在展示列表或文章摘要等…

    2025年12月10日 好文分享
    000
  • Lumen 中分页结果集的编辑与属性添加

    本文档介绍了在 Lumen 框架下,如何对分页查询结果集进行编辑,并向结果中的每个对象动态添加新属性。主要解决了在分页查询后,如何有效地关联其他数据表信息,并将其整合到最终返回的 JSON 数据中的问题。通过示例代码,演示了如何正确地向 StdClass 对象添加属性,避免常见的 “Cr…

    2025年12月10日
    000
  • 优化 Laravel 集合循环:使用 chunk 方法实现多列布局

    Laravel 集合的 chunk 方法提供了一种高效地将大型数据集分割成小块的机制,尤其适用于在视图中实现多列布局。本文将详细介绍如何利用 chunk 方法,将集合数据按指定大小分块,并结合 Bootstrap 等前端框架,优雅地在网页上呈现多列内容,避免传统循环的局限性,提升数据展示的灵活性和可…

    2025年12月10日
    000
  • 在 Laravel 中使用 chunk() 方法优化集合数据的多列布局

    本文深入探讨了在 Laravel 应用中如何高效地将集合(Collection)数据分块并以多列形式展示。通过利用 Laravel 集合提供的 chunk() 方法,开发者可以轻松地将大型数据集按指定大小分割成若干子集合,从而实现灵活的布局控制,避免了手动计算索引或复杂逻辑的困扰,显著提升代码的可读…

    2025年12月10日 好文分享
    000
  • Laravel集合分块处理:高效实现多列数据展示

    本文详细介绍了如何在Laravel应用中,利用集合(Collection)的chunk()方法高效地将数据分块,并以多列布局的形式展示。针对传统循环在实现多列布局时遇到的问题,chunk()方法提供了一种简洁、灵活且语义化的解决方案,帮助开发者轻松构建结构清晰、易于维护的视图。 传统多列布局的挑战与…

    2025年12月10日
    000
  • Laravel 集合分块:高效实现多列数据布局

    本教程详细讲解如何在 Laravel 中利用集合(Collection)的 chunk() 方法将数据分块,从而实现多列布局的展示需求。通过实例代码,演示如何将一个集合均匀地分割成指定大小的子集合,并结合前端框架(如 Bootstrap)优雅地渲染数据,避免了传统循环判断的复杂性与局限性,提升了代码…

    2025年12月10日
    000
  • 自定义WooCommerce产品查询:在商店和分类页面实现URL参数过滤

    本文档旨在指导开发者如何通过URL参数自定义WooCommerce产品查询,实现更灵活的产品筛选功能。我们将使用pre_get_posts action hook,该hook适用于商店和分类页面,允许我们根据URL参数动态修改产品查询条件,从而实现自定义的产品过滤。通过本文,你将学会如何在WooCo…

    2025年12月10日
    000
  • WooCommerce 产品分类页面筛选失效问题排查与解决方案

    本文针对 WooCommerce 商店中自定义筛选器在产品分类页面失效的问题,提供了一种基于 pre_get_posts 钩子的解决方案。通过此方案,开发者可以在主查询中设置 meta_query,从而实现在主商店页面和产品分类页面都能正常工作的自定义筛选功能。本文将详细介绍如何使用 pre_get…

    2025年12月10日
    000
  • WooCommerce 产品分类页面筛选失效问题解决方案

    本文将解决 WooCommerce 中使用 woocommerce_product_query hook 在主商店页面工作正常,但在产品分类页面失效的问题。通过使用 pre_get_posts action hook,我们可以确保自定义筛选器在所有产品页面(包括主商店和分类页面)上都能正确应用。 w…

    2025年12月10日
    000
  • 如何安装PHP环境支持GD库 PHP图像处理库配置步骤

    要让php支持gd库,首先需在系统安装gd扩展,然后启用扩展并重启服务。对于linux系统,使用apt或yum/dnf安装php-gd包,再重启apache或php-fpm;对于windows系统,需在php.ini中取消注释extension=gd并重启apache;若从源码编译php,则需在配置…

    2025年12月10日 好文分享
    000
  • 如何在Docker中连接PHP与Redis服务 PHP环境中配置Redis通信方式

    要在docker中让php与redis“握手”,需配置网络和php的redis扩展。1. 使用docker-compose.yml定义php和redis服务,并确保它们处于同一网络以便通过容器名通信;2. 编写dockerfile安装php环境及redis扩展;3. 编写php代码测试redis连接…

    2025年12月10日 好文分享
    000
  • 从 Python 到 PHP 解码 zlib 压缩数据的正确方法

    本文旨在解决 Python 使用 zlib 压缩数据后,如何在 PHP 中正确解码的问题。重点在于避免将压缩后的二进制数据转换为字符串,而是直接发送原始字节流。通过示例代码和详细解释,帮助读者理解并实现跨语言的压缩数据传输与解码。 在 Python 和 PHP 之间传递压缩数据时,一个常见的错误是将…

    2025年12月10日
    000
  • 解码Python Zlib压缩数据到PHP的正确方法

    本文旨在帮助开发者解决Python使用zlib压缩数据后,在PHP端无法正确解压缩的问题。通过本文,你将了解如何避免常见的错误,并学习如何在Python和PHP之间正确地传输和解压缩zlib压缩的二进制数据,从而实现数据的无损传递。 在Python中使用zlib.compress()压缩数据后,直接…

    2025年12月10日
    000
  • Lumen 分页结果集编辑与数据关联

    本文档介绍了在 Lumen 框架中,如何对分页后的结果集进行编辑,并添加来自其他表的数据关联。通过示例代码,演示了如何将关联的分类信息添加到商品数据中,并解决了在动态添加属性时遇到的“Creating default object from empty value”错误。 在构建 REST API …

    2025年12月10日
    000
  • Laravel中使用required_without验证规则实现二选一校验

    本文旨在讲解如何在Laravel框架中使用required_without验证规则,实现表单中两个字段(例如Email和Telephone)二选一必填,并且在填写时校验格式的功能。通过结合nullable规则,可以避免在字段为空时触发格式验证,从而实现更灵活的验证逻辑。 在Web应用开发中,经常会遇…

    2025年12月10日
    000
  • Laravel中使用required_without规则实现二选一校验及格式验证

    本文旨在讲解如何在Laravel中使用required_without验证规则实现两个字段(如Email和Telephone)的二选一必填校验,并确保在填写任何一个字段时,其格式符合预定义的规则。通过结合nullable规则,我们可以避免在字段为空时触发格式验证错误,从而实现更灵活和健壮的表单验证。…

    2025年12月10日
    000
  • Laravel 使用 required_without 规则实现字段互斥验证

    本文旨在讲解如何在 Laravel 中使用 required_without 验证规则,实现当两个或多个字段中至少有一个字段必须填写,且当字段被填写时,必须符合指定的格式要求。通过结合 nullable 规则,可以避免在字段为空时触发格式验证,从而实现更灵活的验证逻辑。 在 Laravel 开发中,…

    2025年12月10日
    000

发表回复

登录后才能评论
关注微信