
QueryList递归多级数据采集:范围选择器(range())失效问题及解决方案
使用QueryList进行多级数据抓取时,可能会遇到文档示例与实际结果不符的情况,这通常与递归调用和range()方法的用法有关。本文分析一个具体案例,解释问题根源并提供解决方案。
问题描述:
以下代码尝试使用QueryList递归提取嵌套HTML结构中的数据。目标是从HTML中提取标题(
)及其下列表(.list)中的各个项目(.item)。然而,运行结果显示.item字段的值并非预期的数组,而是所有.item内容的拼接结果。
问题代码:
$html = <<<str- ### xxx- ### xxx2item1item2str;$data = querylist::html($html) ->rules(array( 'title' => array('h3','text'), 'list' => array('.list','html') )) ->range('#demo li') //此处range()参数无效 ->queryData(function($item){ // 问题在于这里复用了QueryList对象 $item['list'] = querylist::html($item['list']) ->rules(array( 'item' => array('.item','text') )) ->range('') //尝试重置range(),但无效 ->queryData(); return $item; });dump($data);item12item22
运行结果:
array ( [0] => array ( [title] => xxx [list] => array ( [item] => item1item2 ) ) [1] => array ( [title] => xxx2 [list] => array ( [item] => item12item22 ) ))
问题分析:
虽然代码在递归调用QueryList时使用了range(''),试图重置范围选择器,但这并没有生效。range('')并没有真正清除QueryList对象内部的范围选择状态,导致后续查询仍然受到之前range('#demo li')的影响。
解决方案:
为了解决这个问题,应该在递归调用QueryList时,创建新的QueryList对象,而不是复用之前的对象。这样可以保证每个级别的选择器独立工作,避免范围选择器冲突。
修改后的代码:
$item['list'] = (new QueryList($item['list']))->rules(array( 'item' => array('.item','text')))->queryData();
通过创建新的QueryList对象,可以有效避免范围选择器冲突,从而得到预期的结果。 每个递归调用都拥有独立的范围选择器设置,不会受到上一级调用的影响。 请注意,#demo li 在原始代码中似乎是多余的,因为HTML结构中并没有 #demo 元素。 修改后的代码去除了这个多余的 range() 调用。
修改后的代码确保了正确的递归抓取,并解决了range()方法失效的问题。 在处理嵌套结构时,创建新的QueryList对象是最佳实践,以避免对象状态的意外影响。
以上就是QueryList递归采集多级数据时,range()方法失效导致结果错误的原因是什么?的详细内容,更多请关注创想鸟其它相关文章!
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/1255785.html
微信扫一扫
支付宝扫一扫