Python进阶:高效爬取NBA选秀体测数据

python进阶:高效爬取nba选秀体测数据

本教程旨在解决从NBA官网动态页面爬取选秀体测数据时遇到的挑战。针对传统HTML解析工具难以获取JavaScript动态加载内容的问题,文章将深入探讨如何通过分析网络请求,直接调用NBA官方API接口来获取结构化的JSON数据,并利用`pandas`库将其高效转换为易于处理的数据帧,从而实现稳定且高效的数据采集。

1. 动态网页爬取的挑战与传统方法的局限

在尝试从如NBA官网这类现代网站上爬取数据时,开发者经常会遇到一个常见问题:即使页面在浏览器中正常显示表格数据,使用requests和BeautifulSoup等工具直接请求页面HTML内容时,却无法找到目标数据。这通常是因为这些数据并非直接嵌入在初始HTML中,而是通过JavaScript在页面加载完成后异步从后端API获取并渲染到页面上的。

例如,对于NBA选秀体测数据页面(https://www.nba.com/stats/draft/combine-anthro),如果直接使用BeautifulSoup去查找

标签,很可能一无所获。这是因为页面上的数据表格是在浏览器端执行JavaScript代码后,通过AJAX请求从一个独立的API接口获取JSON数据,然后动态构建出来的。

2. 解决方案:识别并调用后端API

要解决这类问题,最有效的方法是绕过前端渲染过程,直接与后端数据源进行交互。这通常涉及到以下步骤:

立即学习“Python免费学习笔记(深入)”;

检查网络请求: 使用浏览器开发者工具(通常按F12打开),切换到“Network”(网络)选项卡。刷新页面,观察在数据加载过程中发出的XHR/Fetch请求。定位数据接口: 筛选这些请求,查找返回JSON数据且包含目标数据的请求。这些请求的URL通常会包含“stats”、“api”等关键词。分析请求参数与响应结构: 仔细查看该请求的URL、请求方法(GET/POST)、请求头(Headers)和请求体(Payload/Params)。同时,分析其JSON响应的结构,以了解数据是如何组织的。

对于NBA选秀体测数据,通过开发者工具分析发现,页面数据实际上来源于一个名为draftcombineplayeranthro的API接口。

3. 实现数据爬取

一旦确定了API接口及其调用方式,我们就可以使用Python的requests库来模拟浏览器请求,直接获取JSON数据。

3.1 导入所需库

首先,我们需要导入requests库来发送HTTP请求,以及pandas库来处理和组织获取到的数据。

易企秀 易企秀

易企秀,一体化创意设计营销平台。超100万模板1键套用3分钟制作,随时随地完成创意设计营销。

易企秀 44 查看详情 易企秀

import requestsimport pandas as pd

3.2 定义API接口与请求参数

NBA的统计API通常需要特定的参数来过滤数据,例如LeagueID和SeasonYear。同时,为了模拟真实浏览器行为,避免被服务器识别为爬虫并拒绝访问,我们还需要设置一些HTTP请求头,如Referer和User-Agent。

# API接口URLurl = "https://stats.nba.com/stats/draftcombineplayeranthro"# 请求参数,用于指定联赛ID和赛季年份# LeagueID: "00" 通常代表NBA# SeasonYear: 例如 "2022-23" 表示2022-2023赛季payload = {    "LeagueID": "00",    "SeasonYear": "2022-23" # 根据需要修改赛季年份}# 请求头,模拟浏览器行为headers = {    "Referer": "https://www.nba.com/", # 模拟请求来源    "User-Agent": "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36" # 模拟用户代理}

注意: User-Agent字符串应尽可能使用最新的浏览器版本,可以从你的浏览器开发者工具中复制。

3.3 发送请求并解析JSON数据

使用requests.get()方法发送GET请求,并通过params参数传递payload,通过headers参数传递headers。API返回的数据是JSON格式,可以直接通过.json()方法解析为Python字典。

# 发送GET请求并获取JSON响应response = requests.get(url, params=payload, headers=headers)response.raise_for_status() # 检查请求是否成功(状态码200)data = response.json()

3.4 将JSON数据转换为DataFrame

NBA统计API的JSON响应通常包含一个resultSets列表,其中每个元素代表一个数据集。每个数据集又包含headers(列名)和rowSet(数据行)。我们可以利用这些信息,方便地将数据转换为pandas.DataFrame。

# 从JSON数据中提取列名和数据行# resultSets[0]通常是第一个(或唯一)数据集columns = data["resultSets"][0]["headers"]rows = data["resultSets"][0]["rowSet"]# 创建DataFramedf = pd.DataFrame(rows, columns=columns)

3.5 完整代码示例

import requestsimport pandas as pddef get_nba_combine_anthro_data(season_year="2022-23"):    """    从NBA官方API获取指定赛季的选秀体测数据。    Args:        season_year (str): 赛季年份,例如 "2022-23"。    Returns:        pd.DataFrame: 包含选秀体测数据的DataFrame。                      如果获取失败,则返回None。    """    url = "https://stats.nba.com/stats/draftcombineplayeranthro"    payload = {        "LeagueID": "00",        "SeasonYear": season_year    }    # 推荐使用最新的User-Agent字符串    headers = {        "Referer": "https://www.nba.com/",        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36"    }    try:        response = requests.get(url, params=payload, headers=headers, timeout=10)        response.raise_for_status() # 如果状态码不是200,则抛出HTTPError异常        data = response.json()        columns = data["resultSets"][0]["headers"]        rows = data["resultSets"][0]["rowSet"]        df = pd.DataFrame(rows, columns=columns)        return df    except requests.exceptions.RequestException as e:        print(f"请求失败: {e}")        return None    except KeyError as e:        print(f"JSON解析错误,可能API响应结构发生变化: {e}")        return None# 调用函数获取数据nba_combine_df = get_nba_combine_anthro_data(season_year="2022-23")if nba_combine_df is not None:    print("成功获取NBA选秀体测数据:")    print(nba_combine_df.head())    print(f"n数据总行数: {len(nba_combine_df)}")    print(f"数据总列数: {len(nba_combine_df.columns)}")

3.6 示例输出

运行上述代码,你将得到一个包含NBA选秀体测数据的pandas.DataFrame,其部分内容如下所示:

成功获取NBA选秀体测数据:   TEMP_PLAYER_ID  PLAYER_ID FIRST_NAME  ... BODY_FAT_PCT HAND_LENGTH HAND_WIDTH0         1630534    1630534      Ochai  ...         5.40        8.75       9.501         1631116    1631116    Patrick  ...         8.90        8.75       9.502         1631094    1631094      Paolo  ...          NaN         NaN        NaN3         1631109    1631109       Mark  ...         5.40        9.00       9.754         1630592    1630592      Jalen  ...          NaN         NaN        NaN[5 rows x 18 columns]数据总行数: 83数据总列数: 18

4. 注意事项与总结

API稳定性: 官方API接口的URL、参数和JSON响应结构可能会随时间变化。如果代码突然失效,请重新检查NBA官网的网络请求,以获取最新的API信息。请求频率与限制: 频繁或高速的请求可能会触发网站的反爬机制,导致IP被封禁。在实际应用中,应设置合理的请求间隔(例如使用time.sleep()),并考虑使用代理IP池。User-Agent: 保持User-Agent字符串更新,以模拟最新的浏览器行为,有助于降低被识别为爬虫的风险。错误处理: 在实际项目中,应加入更完善的错误处理机制,例如对网络请求失败、JSON解析异常等情况进行捕获和处理。道德与法律: 在进行网络爬取时,务必遵守网站的服务条款(Terms of Service)和当地的法律法规。仅获取公开数据,不进行恶意攻击或滥用资源。

通过直接调用后端API,我们能够高效且稳定地获取NBA选秀体测数据,避免了前端JavaScript渲染带来的复杂性。这种方法不仅适用于NBA官网,也适用于许多其他采用动态加载内容的网站,是现代网络数据采集的重要技术之一。

以上就是Python进阶:高效爬取NBA选秀体测数据的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/575728.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
解决高并发难题:使用voku/simple-cache提升PHP应用性能
上一篇 2025年11月10日 08:23:33
即梦如何恢复被删除的记录_即梦被删记录恢复方法
下一篇 2025年11月10日 08:23:42

相关推荐

  • 修复Django电商项目中AJAX过滤产品列表图片不显示问题

    在Django电商项目中,当使用AJAX动态加载过滤后的产品列表时,常遇到图片无法正常显示的问题。这通常是由于前端模板中图片加载方式(如data-setbg属性结合JavaScript库)与AJAX动态内容更新机制不兼容所致。解决方案是直接在AJAX返回的HTML中使用标准的标签来渲染图片,确保浏览…

    2026年5月10日
    000
  • 开源免费PHP工具 PHP开发效率提升利器

    推荐开源免费PHP开发工具以提升效率:VS Code、Sublime Text轻量高效,PhpStorm专业强大;调试用Xdebug、Kint、Ray;依赖管理选Composer;代码质量工具包括PHPStan、Psalm、PHP_CodeSniffer;数据库管理可用%ignore_a_1%MyA…

    2026年5月10日
    000
  • Matplotlib 地图中多类型图例的创建与优化

    Matplotlib 地图中多类型图例的创建与优化Matplotlib 地图中多类型图例的创建与优化Matplotlib 地图中多类型图例的创建与优化Matplotlib 地图中多类型图例的创建与优化

    本教程旨在解决matplotlib地图可视化中,如何在一个图例中同时展示颜色块(如区域分类)和自定义标记(如特定兴趣点)的问题。文章详细介绍了当传统`patch`对象无法正确显示标记时,如何利用`matplotlib.lines.line2d`创建标记图例句柄,并将其与颜色块图例句柄合并,从而生成一…

    2026年5月10日 用户投稿
    100
  • Golang JSON序列化:控制敏感字段暴露的最佳实践

    本教程探讨golang中如何高效控制结构体字段在json序列化时的可见性。当需要将包含敏感信息的结构体数组转换为json响应时,通过利用`encoding/json`包提供的结构体标签,特别是`json:”-“`,可以轻松实现对特定字段的忽略,从而避免敏感数据泄露,确保api…

    2026年5月10日
    000
  • 利用海象运算符简化条件赋值:Python教程与最佳实践

    本文旨在探讨Python中海象运算符(:=)在条件赋值场景下的应用。通过对比传统if/else语句与海象运算符,以及条件表达式,分析海象运算符在简化代码、提高可读性方面的优势与局限性。并通过具体示例,展示如何在列表推导式等场景下合理使用海象运算符,同时强调其潜在的复杂性及替代方案,帮助开发者更好地掌…

    2026年5月10日
    100
  • 怎么在PHP代码中实现图片上传功能_PHP图片上传功能实现与安全处理教程

    首先创建含enctype的HTML表单,再用PHP接收文件,检查目录、移动临时文件,验证类型与大小,生成唯一文件名,并调整php.ini限制以确保上传成功。 如果您尝试在PHP项目中添加图片上传功能,但服务器无法正确接收或保存文件,则可能是由于表单配置、文件处理逻辑或安全限制的问题。以下是实现该功能…

    2026年5月10日
    100
  • HTML如何隐藏滚动条或去除滚动条

    滚动条可以存在也可以不存在,本文主要介绍了html 隐藏滚动条和去除滚动条的方法的相关资料,大家一起来学习一下html隐藏滚动条或去除滚动条的方法吧。 1. html 标签加属性 XML/HTML Code复制内容到剪贴板 2.body中加入以下代码 立即学习“前端免费学习笔记(深入)”; html…

    用户投稿 2026年5月10日
    100
  • vscode上怎么运行html_vscode上运行html步骤【指南】

    首先保存文件为.html格式,再通过浏览器或Live Server插件打开预览;推荐安装Live Server实现本地服务器运行与实时刷新,提升开发体验。 在 VS Code 上运行 HTML 文件并不需要复杂的配置,只需几个简单步骤即可预览页面效果。VS Code 本身是一个代码编辑器,不直接运行…

    2026年5月10日
    100
  • RichHandler与Rich Progress集成:解决显示冲突的教程

    在使用rich库的`richhandler`进行日志输出并同时使用`progress`组件时,可能会遇到显示错乱或溢出问题。这通常是由于为`richhandler`和`progress`分别创建了独立的`console`实例导致的。解决方案是确保日志处理器和进度条组件共享同一个`console`实例…

    2026年5月10日
    000
  • 修复点击时按钮抖动:CSS垂直对齐实践

    本文探讨了在Web开发中,交互式按钮(如播放/暂停按钮)在点击时发生意外垂直位移的问题。通过分析CSS样式变化对元素布局的影响,我们发现这是由于按钮不同状态下的边框样式和内边距改变,以及默认的垂直对齐行为共同作用所致。核心解决方案是利用CSS的vertical-align属性,将其设置为middle…

    2026年5月10日
    100
  • 页面中文本域的值怎么设置

    标签定义多行的文本输入控件。 文本区中可容纳无限数量的文本,其中的文本的默认字体是等宽字体(通常是 Courier)。 可以通过 cols 和 rows 属性来规定 textarea 的尺寸,不过更好的办法是使用 CSS 的 height 和 width 属性。 注释:在文本输入区内的文本行间,用 …

    2026年5月10日
    000
  • 使用 Jupyter Notebook 进行探索性数据分析

    Jupyter Notebook通过单元格实现代码与Markdown结合,支持数据导入(pandas)、清洗(fillna)、探索(matplotlib/seaborn可视化)、统计分析(describe/corr)和特征工程,便于记录与分享分析过程。 Jupyter Notebook 是进行探索性…

    2026年5月10日
    000
  • 如何在HTML中插入表单元素_HTML表单控件与输入类型使用指南

    HTML表单通过标签构建,包含action和method属性定义数据提交目标与方式,常用input类型如text、password、email等适配不同输入需求,配合label、required、placeholder提升可用性,结合textarea、select、button等控件实现完整交互,是…

    2026年5月10日
    100
  • 前端缓存策略与JavaScript存储管理

    根据数据特性选择合适的存储方式并制定清晰的读写与清理逻辑,能显著提升前端性能;合理运用Cookie、localStorage、sessionStorage、IndexedDB及Cache API,结合缓存策略与定期清理机制,可在保证用户体验的同时避免安全与性能隐患。 前端缓存和JavaScript存…

    2026年5月10日
    200
  • HTML5网页如何实现手势操作 HTML5网页移动端交互的处理技巧

    首先利用原生touch事件实现滑动判断,再通过preventDefault解决滚动冲突,接着引入Hammer.js处理复杂手势,最后通过优化点击区域、避免事件冲突和增加视觉反馈提升体验。 在移动端浏览器中,HTML5网页可以通过触摸事件实现手势操作,提升用户体验。虽然原生JavaScript提供了基…

    2026年5月10日
    000
  • 深入理解 Express.js 中 next() 参数的作用与中间件机制

    本文深入探讨 express.js 中间件函数中的 `next()` 参数。它负责将控制权传递给请求-响应周期中的下一个中间件或路由处理程序。文章将详细解释 `next()` 的工作原理、中间件的注册与执行顺序,以及不正确使用 `next()` 可能导致请求挂起的风险,并通过代码示例和实际应用场景,…

    2026年5月10日
    000
  • Python命令怎样使用profile分析脚本性能 Python命令性能分析的基础教程

    使用Python的cProfile模块分析脚本性能最直接的方式是通过命令行执行python -m cProfile your_script.py,它会输出每个函数的调用次数、总耗时、累积耗时等关键指标,帮助定位性能瓶颈;为进一步分析,可将结果保存为文件python -m cProfile -o ou…

    2026年5月10日
    000
  • PHP动态生成表单输入与POST数据获取实践指南

    本教程详细阐述了如何在php中根据动态数据源(如数据库值)生成多个表单输入框,并演示了如何通过post方法准确无误地获取这些动态生成的输入值。文章强调了正确的输入框命名策略,避免了常见的命名误区,并提供了完整的代码示例,确保开发者能够高效处理动态表单数据。 动态生成表单输入 在Web开发中,我们经常…

    2026年5月10日
    000
  • Python递归函数追踪与性能考量:以序列打印为例

    本文深入探讨了Python中一种递归打印序列元素的方法,并着重演示了如何通过引入缩进参数来有效追踪递归函数的执行流程和参数变化。通过实际代码示例,文章揭示了递归调用可能带来的潜在性能开销,特别是对调用栈空间的需求,以及Python默认递归深度限制可能导致的错误,为读者提供了理解和优化递归算法的实用见…

    2026年5月10日
    000
  • python中zip函数详解 python多序列压缩zip函数应用场景

    zip函数的应用场景包括:1) 同时遍历多个序列,2) 合并多个列表的数据,3) 数据分析和科学计算中的元素运算,4) 处理csv文件,5) 性能优化。zip函数是一个强大的工具,能够简化代码并提高处理多个序列时的效率。 在Python中,zip函数是一个非常有用的工具,它能够将多个可迭代对象打包成…

    2026年5月10日
    000

发表回复

登录后才能评论
关注微信