
本教程详细介绍了如何通过模拟HTTP请求,从具有.NET后端、包含动态生成表格的ASP.NET网站中高效提取数据。针对传统Selenium或直接BeautifulSoup抓取失败的问题,我们演示了如何利用requests库获取动态视图状态参数,构建并发送POST请求,最终结合pandas库精准解析并清洗目标表格数据,从而避免了浏览器自动化带来的性能开销和复杂性。
理解ASP.NET网站的数据抓取挑战
在尝试从某些动态网页(特别是基于asp.net框架构建的网站)抓取数据时,开发者常常会遇到困难。传统的静态html解析方法(如直接使用beautifulsoup查找元素)或基于浏览器自动化的selenium方法可能无法奏效。这通常是因为asp.net网站为了维护页面状态和处理用户交互,会大量使用隐藏字段(如__viewstate、__eventvalidation、__viewstategenerator等)。这些字段的值是动态生成的,并且在每次页面请求或用户操作时都会被发送到服务器,以确保服务器能够正确理解客户端的状态。
当目标表格并非在首次页面加载时直接包含在HTML源码中,而是通过JavaScript异步加载,或者在用户与页面交互(如点击按钮、选择下拉菜单)后才由服务器响应生成时,直接的BeautifulSoup解析会返回None。即使使用Selenium,如果表格的加载依赖于特定的POST请求参数,而这些参数又依赖于页面的动态状态,那么简单地等待页面加载完成可能也无法捕获到最终的表格内容。更进一步,Selenium虽然功能强大,但其启动浏览器、模拟用户行为的开销较大,对于大规模或高频率的数据抓取任务而言,效率较低。
基于请求模拟的解决方案
针对上述挑战,一种更高效且专业的解决方案是模拟HTTP请求。其核心思想是:
分析网站行为:通过浏览器开发者工具(Network标签页)观察目标网站在加载或用户交互时发出的HTTP请求,特别是那些包含目标数据的POST请求。提取动态参数:首次GET请求页面,解析HTML以提取如__VIEWSTATE、__EVENTVALIDATION等关键的动态隐藏字段值。构建请求负载:结合这些动态值以及通过分析获得的固定表单参数,构建一个完整的POST请求负载(payload)。发送模拟请求:使用requests库发送这个POST请求。解析响应数据:从POST请求的响应中提取包含目标表格的HTML内容,并使用pandas等库进行解析和数据清洗。
这种方法避免了启动整个浏览器环境的开销,使得数据抓取过程更加轻量和高效。
实现细节与代码示例
下面将通过一个具体的ASP.NET网站表格抓取案例来演示这一过程。目标是从一个西班牙政府网站(https://serviciosede.mineco.gob.es/indeco/reports/verSerieGraf.aspx/?codigo=230400&frec=-1)中提取包含“Fecha”和“Valor”列的表格数据。
from io import StringIOimport pandas as pdimport requestsfrom bs4 import BeautifulSoupfrom tabulate import tabulate# 目标URLurl = "https://serviciosede.mineco.gob.es/indeco/reports/verSerieGraf.aspx/?codigo=230400&frec=-1"# 预设的POST请求负载数据,这些是分析网络请求后得到的固定参数# 某些值可能在每次请求中固定,某些需要从首次GET请求中提取payload_data = { "__EVENTTARGET": "ReportViewer1$_ctl9$Reserved_AsyncLoadTarget", "__VIEWSTATE": "", # 动态值,需要从首次GET请求中提取 "__VIEWSTATEGENERATOR": "4B866612", # 固定值或半动态值 "__EVENTVALIDATION": "", # 动态值,需要从首次GET请求中提取 "ReportViewer1:_ctl11": "standards", "ReportViewer1:AsyncWait:HiddenCancelField": "False", "ReportViewer1:ToggleParam:collapse": "false", "ReportViewer1:_ctl7:collapse": "false", "ReportViewer1:_ctl9:VisibilityState:_ctl0": "None", "ReportViewer1:_ctl9:ReportControl:_ctl4": "100"}# 使用requests.Session保持会话状态with requests.Session() as s: # 第一次GET请求:获取页面的初始HTML内容 # 目的是为了提取动态生成的__VIEWSTATE和__EVENTVALIDATION值 initial_response = s.get(url) soup = BeautifulSoup(initial_response.text, "lxml") # 从首次GET请求的HTML中提取动态参数 # 使用CSS选择器定位这些隐藏的input元素 viewstate_element = soup.select_one("#__VIEWSTATE") if viewstate_element: payload_data["__VIEWSTATE"] = viewstate_element["value"] else: print("警告:未找到__VIEWSTATE字段。") eventvalidation_element = soup.select_one("#__EVENTVALIDATION") if eventvalidation_element: payload_data["__EVENTVALIDATION"] = eventvalidation_element["value"] else: print("警告:未找到__EVENTVALIDATION字段。") # 第二次POST请求:发送包含动态参数的表单数据 # 这次请求的响应中应该包含目标表格的HTML table_response = s.post(url, data=payload_data) # 使用pandas解析响应中的HTML表格 # pd.read_html会返回一个DataFrame列表,因为HTML中可能包含多个表格 # 经过分析,目标表格是列表中的倒数第三个 df_list = pd.read_html(StringIO(table_response.text)) if len(df_list) >= 3: df = df_list[-3] else: print("错误:未找到预期的表格。") exit() # 数据清洗和格式化 # 移除第一列(通常是序号或不必要的辅助列) df = df.drop(df.columns[0], axis=1) # 移除包含NaN值的行 df.dropna(inplace=True) # 将第一行设置为列名 df.columns = df.iloc[0] # 移除作为列名的第一行数据 df = df.iloc[1:] # 打印格式化后的表格 print(tabulate(df, headers='keys', tablefmt='psql', showindex=False))
代码解析
导入库:
StringIO:用于将字符串视为文件对象,pandas.read_html可以直接处理文件对象。pandas:强大的数据处理库,特别是read_html函数,能够自动从HTML中识别并解析表格。requests:用于发送HTTP请求,替代Selenium进行网页内容获取。BeautifulSoup:用于解析HTML内容,以便提取动态生成的表单字段。tabulate:用于将pandas DataFrame以美观的文本格式打印到控制台。
payload_data: 这是一个字典,包含了POST请求需要发送的所有表单数据。这些数据通常可以通过浏览器的开发者工具(Network标签页,查看POST请求的Form Data或Payload)
以上就是针对ASP.NET网站动态表格的高效数据抓取教程:摆脱Selenium的限制的详细内容,更多请关注创想鸟其它相关文章!
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/1368800.html
微信扫一扫
支付宝扫一扫