
本教程旨在解决使用beautifulsoup爬取网页时,因内容动态加载而无法获取目标数据的问题。当页面元素通过javascript的xhr请求异步加载时,直接解析初始html将失败。文章将详细阐述如何通过浏览器开发者工具识别这些xhr请求,并利用python的`requests`库直接调用api接口,从而成功获取并处理动态生成的数据。
在进行网页数据抓取时,开发者常会遇到一个常见问题:尽管在浏览器中能看到完整的页面内容,但使用BeautifulSoup等解析工具获取到的HTML却缺少部分目标数据。这通常是由于网站采用了动态加载技术,即页面内容并非一次性从服务器加载,而是通过JavaScript在页面加载完成后,通过XMLHttpRequest (XHR) 或 Fetch API 异步请求数据并更新DOM。
理解动态加载与XHR请求
当您尝试从https://www.parliament.lk/en/members-of-parliament/directory-of-members/?cletter=A这样的页面抓取
标签下的内容,但soup.find(‘ul’, id=’demoFour’)返回空标签时,这正是动态加载的典型表现。页面上的成员列表很可能是在初始HTML加载完毕后,通过JavaScript向后端发送了一个API请求,然后将返回的数据渲染到id=”demoFour”的中。
要解决这个问题,关键在于识别并模拟这些幕后的XHR请求。您可以使用浏览器的开发者工具(通常按F12打开)来检查这些请求:
打开目标网页。打开开发者工具,切换到“网络 (Network)”标签页。刷新页面,或者在页面上进行任何可能触发数据加载的操作(例如点击分页、筛选等)。在“网络”标签页中,筛选“XHR”或“Fetch/XHR”类型,观察是否有请求返回了您想要的数据。通常这些请求的URL会包含api、data或与页面内容相关的关键词,并且响应类型多为JSON。
通过分析,我们可以发现,该网站的成员列表数据实际上是通过向https://www.parliament.lk/members-of-parliament/directory-of-members/index2.php发送一个POST请求获取的,该请求的参数包括了字母筛选(letter)等信息,并返回JSON格式的数据。
解决方案:直接调用API接口
一旦确定了数据源的API接口,我们就可以绕过前端渲染过程,直接使用Python的requests库向该接口发送请求,获取原始数据。
以下是实现这一策略的Python代码示例:
from bs4 import BeautifulSoupimport requestsimport stringimport json # 导入json库用于处理JSON响应# 存储抓取到的数据data = []# 遍历所有大写字母,模拟页面按字母筛选的功能for letter in list(string.ascii_uppercase): # 构建API请求URL和POST请求体 api_url = 'https://www.parliament.lk/members-of-parliament/directory-of-members/index2.php' # 注意:这里是一个POST请求,需要传递form data payload = { 'option': 'com_members', 'task': 'all', 'tmpl': 'component', 'letter': letter, 'wordfilter': '', 'search_district': '' } try: # 发送POST请求获取数据 # 实际的请求是POST,并且参数在请求体中 result = requests.post(api_url, data=payload) result.raise_for_status() # 检查HTTP请求是否成功 (状态码200) # 解析JSON响应 members_json = result.json() # 遍历返回的成员列表 for member_info in members_json: # 提取所需信息并添加到数据列表中 data.append({ 'url': f"https://www.parliament.lk/en/members-of-parliament/directory-of-members/viewMember/{member_info['mem_intranet_id']}", 'id': member_info['mem_intranet_id'], 'name': member_info['member_sname_eng'] }) except requests.exceptions.RequestException as e: print(f"请求字母 '{letter}' 时发生错误: {e}") except json.JSONDecodeError as e: print(f"解析字母 '{letter}' 的响应时发生JSON错误: {e}")# 打印抓取到的数据print(data)
代码解析:
导入必要的库:requests用于发送HTTP请求,string用于生成字母列表,json用于解析API返回的JSON数据。遍历字母表:网站的成员目录是按字母分类的,因此我们通过遍历string.ascii_uppercase来模拟按字母筛选的操作,确保获取所有成员的信息。构建API请求:api_url是实际提供成员数据的后端接口地址。payload是一个字典,包含了POST请求所需的表单数据(form data),这些参数是从开发者工具中分析XHR请求的“负载 (Payload)”或“表单数据 (Form Data)”部分获取的。发送POST请求:使用requests.post()方法发送POST请求,并将payload作为data参数传递。错误处理:result.raise_for_status()用于在HTTP请求返回错误状态码时抛出异常。try-except块用于捕获网络请求和JSON解析可能发生的错误,提高程序的健壮性。解析JSON响应:result.json()方法将HTTP响应体解析为Python字典或列表。提取并存储数据:遍历解析后的JSON数据,提取每个成员的ID、英文名等信息,并构建一个包含成员详情URL的字典,最后将其添加到data列表中。
抓取结果示例
执行上述代码后,data列表将包含一个结构化的字典列表,每个字典代表一个议会成员,包含其URL、ID和姓名,例如:
[{'url': 'https://www.parliament.lk/en/members-of-parliament/directory-of-members/viewMember/3266', 'id': '3266', 'name': 'A. Aravindh Kumar'}, {'url': 'https://www.parliament.lk/en/members-of-parliament/directory-of-members/viewMember/50', 'id': '50', 'name': 'Abdul Haleem'}, {'url': 'https://www.parliament.lk/en/members-of-parliament/directory-of-members/viewMember/3325', 'id': '3325', 'name': 'Ajith Rajapakse'}, ...]
注意事项与进阶
User-Agent和Headers:某些网站可能会检查请求头中的User-Agent。如果直接请求API被拒绝,尝试在requests.post()中添加headers参数,模拟浏览器行为。频率限制与IP封锁:频繁的请求可能会触发网站的频率限制或IP封锁。考虑添加time.sleep()在请求之间设置延迟,或使用代理IP池。动态参数:本例中的letter参数是显而易见的。在更复杂的场景中,API请求的参数可能包含动态生成的令牌(token)、时间戳或其他加密信息。这需要更深入的分析JavaScript代码来理解其生成逻辑。详细页面抓取:本教程只获取了成员的基本信息。如果需要每个成员的详细资料,您可以使用抓取到的url字段,进一步对每个成员的详情页发送requests.get()请求,并使用BeautifulSoup解析这些详情页。
总结
当传统的BeautifulSoup解析方法无法获取到网页上的内容时,很可能是因为内容通过JavaScript动态加载。解决之道在于利用浏览器开发者工具分析网络请求,找到数据源的API接口,并直接使用requests库模拟这些XHR请求来获取原始数据。这种方法更直接、高效,并且能获取到结构化的JSON数据,极大地简化了数据处理过程。掌握这一技巧,将使您在面对现代动态网页时,能够更有效地进行数据抓取。
以上就是解决动态加载内容爬取问题:利用XHR请求获取隐藏数据的详细内容,更多请关注php中文网其它相关文章!
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/1598912.html
微信扫一扫
支付宝扫一扫