querylist递归采集时,range方法避免数据合并详解
使用QueryList进行多级数据采集时,递归调用querydata函数容易导致range()方法出现数据合并问题。本文通过一个案例分析range()方法在递归调用中的作用,并解释文档示例与实际运行结果的差异。
问题描述:
以下代码尝试从HTML结构中提取标题(h3)和列表(.list)信息,列表中包含多个子项(.item)。递归调用querydata函数提取子项时,item字段数据却合并了,而非预期的独立列表。
代码示例:
$html = <<<str- ### xxx- ### xxx2item1item2str;$data = querylist::html($html) ->rules([ 'title' => ['h3', 'text'], 'list' => ['.list', 'html'] ]) ->range('#demo li') // 这里假设存在item12item22
- ...
运行结果(预期与实际结果差异):
如果代码中range('')被省略,则item字段内容会合并:
Array ( [0] => Array ( [title] => xxx [list] => Array ( [item] => item1item2 ) ) [1] => Array ( [title] => xxx2 [list] => Array ( [item] => item12item22 ) ) )
添加range('')后,结果将正确地显示为独立列表:
Array ( [0] => Array ( [title] => xxx [list] => Array ( [0] => Array ( [item] => item1 ) [1] => Array ( [item] => item2 ) ) ) [1] => Array ( [title] => xxx2 [list] => Array ( [0] => Array ( [item] => item12 ) [1] => Array ( [item] => item22 ) ) ) )
问题分析:
range('#demo li') 指定了外层循环选择#demo下的li元素。 如果内部querydata函数忽略range(''),内部querylist对象会继承外层range('#demo li')设置。这导致内部循环仍然作用于所有li元素,而非当前li元素下的.item元素,从而造成item字段内容合并。range('')清空范围选择,确保内部循环只处理传入的$item['list'] HTML片段。
解决方法:
在内部querydata函数中使用range('')重置范围选择,强制querylist对象仅处理当前$item['list'] HTML片段,避免范围继承问题。
结论:
理解range()方法在QueryList递归调用中的作用至关重要。 在递归调用中,务必在每个querydata函数中根据实际需求设置或重置range()参数,以避免数据合并或其他意外结果。 本例中,range('')的运用有效地解决了数据合并问题,确保了递归采集的准确性。 需要注意的是,示例代码中的range('#demo li')需要对应的HTML结构存在,否则该range将无效。
以上就是QueryList递归采集时,Range方法如何避免数据合并?的详细内容,更多请关注创想鸟其它相关文章!
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/1285462.html
微信扫一扫
支付宝扫一扫