Python进阶:高效爬取NBA选秀体测数据

python进阶:高效爬取nba选秀体测数据

本教程旨在解决从NBA官网动态页面爬取选秀体测数据时遇到的挑战。针对传统HTML解析工具难以获取JavaScript动态加载内容的问题,文章将深入探讨如何通过分析网络请求,直接调用NBA官方API接口来获取结构化的JSON数据,并利用`pandas`库将其高效转换为易于处理的数据帧,从而实现稳定且高效的数据采集。

1. 动态网页爬取的挑战与传统方法的局限

在尝试从如NBA官网这类现代网站上爬取数据时,开发者经常会遇到一个常见问题:即使页面在浏览器中正常显示表格数据,使用requests和BeautifulSoup等工具直接请求页面HTML内容时,却无法找到目标数据。这通常是因为这些数据并非直接嵌入在初始HTML中,而是通过JavaScript在页面加载完成后异步从后端API获取并渲染到页面上的。

例如,对于NBA选秀体测数据页面(https://www.nba.com/stats/draft/combine-anthro),如果直接使用BeautifulSoup去查找

标签,很可能一无所获。这是因为页面上的数据表格是在浏览器端执行JavaScript代码后,通过AJAX请求从一个独立的API接口获取JSON数据,然后动态构建出来的。

2. 解决方案:识别并调用后端API

要解决这类问题,最有效的方法是绕过前端渲染过程,直接与后端数据源进行交互。这通常涉及到以下步骤:

立即学习“Python免费学习笔记(深入)”;

检查网络请求: 使用浏览器开发者工具(通常按F12打开),切换到“Network”(网络)选项卡。刷新页面,观察在数据加载过程中发出的XHR/Fetch请求。定位数据接口: 筛选这些请求,查找返回JSON数据且包含目标数据的请求。这些请求的URL通常会包含“stats”、“api”等关键词。分析请求参数与响应结构: 仔细查看该请求的URL、请求方法(GET/POST)、请求头(Headers)和请求体(Payload/Params)。同时,分析其JSON响应的结构,以了解数据是如何组织的。

对于NBA选秀体测数据,通过开发者工具分析发现,页面数据实际上来源于一个名为draftcombineplayeranthro的API接口。

3. 实现数据爬取

一旦确定了API接口及其调用方式,我们就可以使用Python的requests库来模拟浏览器请求,直接获取JSON数据。

3.1 导入所需库

首先,我们需要导入requests库来发送HTTP请求,以及pandas库来处理和组织获取到的数据。

易企秀 易企秀

易企秀,一体化创意设计营销平台。超100万模板1键套用3分钟制作,随时随地完成创意设计营销。

易企秀 44 查看详情 易企秀

import requestsimport pandas as pd

3.2 定义API接口与请求参数

NBA的统计API通常需要特定的参数来过滤数据,例如LeagueID和SeasonYear。同时,为了模拟真实浏览器行为,避免被服务器识别为爬虫并拒绝访问,我们还需要设置一些HTTP请求头,如Referer和User-Agent。

# API接口URLurl = "https://stats.nba.com/stats/draftcombineplayeranthro"# 请求参数,用于指定联赛ID和赛季年份# LeagueID: "00" 通常代表NBA# SeasonYear: 例如 "2022-23" 表示2022-2023赛季payload = {    "LeagueID": "00",    "SeasonYear": "2022-23" # 根据需要修改赛季年份}# 请求头,模拟浏览器行为headers = {    "Referer": "https://www.nba.com/", # 模拟请求来源    "User-Agent": "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36" # 模拟用户代理}

注意: User-Agent字符串应尽可能使用最新的浏览器版本,可以从你的浏览器开发者工具中复制。

3.3 发送请求并解析JSON数据

使用requests.get()方法发送GET请求,并通过params参数传递payload,通过headers参数传递headers。API返回的数据是JSON格式,可以直接通过.json()方法解析为Python字典。

# 发送GET请求并获取JSON响应response = requests.get(url, params=payload, headers=headers)response.raise_for_status() # 检查请求是否成功(状态码200)data = response.json()

3.4 将JSON数据转换为DataFrame

NBA统计API的JSON响应通常包含一个resultSets列表,其中每个元素代表一个数据集。每个数据集又包含headers(列名)和rowSet(数据行)。我们可以利用这些信息,方便地将数据转换为pandas.DataFrame。

# 从JSON数据中提取列名和数据行# resultSets[0]通常是第一个(或唯一)数据集columns = data["resultSets"][0]["headers"]rows = data["resultSets"][0]["rowSet"]# 创建DataFramedf = pd.DataFrame(rows, columns=columns)

3.5 完整代码示例

import requestsimport pandas as pddef get_nba_combine_anthro_data(season_year="2022-23"):    """    从NBA官方API获取指定赛季的选秀体测数据。    Args:        season_year (str): 赛季年份,例如 "2022-23"。    Returns:        pd.DataFrame: 包含选秀体测数据的DataFrame。                      如果获取失败,则返回None。    """    url = "https://stats.nba.com/stats/draftcombineplayeranthro"    payload = {        "LeagueID": "00",        "SeasonYear": season_year    }    # 推荐使用最新的User-Agent字符串    headers = {        "Referer": "https://www.nba.com/",        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36"    }    try:        response = requests.get(url, params=payload, headers=headers, timeout=10)        response.raise_for_status() # 如果状态码不是200,则抛出HTTPError异常        data = response.json()        columns = data["resultSets"][0]["headers"]        rows = data["resultSets"][0]["rowSet"]        df = pd.DataFrame(rows, columns=columns)        return df    except requests.exceptions.RequestException as e:        print(f"请求失败: {e}")        return None    except KeyError as e:        print(f"JSON解析错误,可能API响应结构发生变化: {e}")        return None# 调用函数获取数据nba_combine_df = get_nba_combine_anthro_data(season_year="2022-23")if nba_combine_df is not None:    print("成功获取NBA选秀体测数据:")    print(nba_combine_df.head())    print(f"n数据总行数: {len(nba_combine_df)}")    print(f"数据总列数: {len(nba_combine_df.columns)}")

3.6 示例输出

运行上述代码,你将得到一个包含NBA选秀体测数据的pandas.DataFrame,其部分内容如下所示:

成功获取NBA选秀体测数据:   TEMP_PLAYER_ID  PLAYER_ID FIRST_NAME  ... BODY_FAT_PCT HAND_LENGTH HAND_WIDTH0         1630534    1630534      Ochai  ...         5.40        8.75       9.501         1631116    1631116    Patrick  ...         8.90        8.75       9.502         1631094    1631094      Paolo  ...          NaN         NaN        NaN3         1631109    1631109       Mark  ...         5.40        9.00       9.754         1630592    1630592      Jalen  ...          NaN         NaN        NaN[5 rows x 18 columns]数据总行数: 83数据总列数: 18

4. 注意事项与总结

API稳定性: 官方API接口的URL、参数和JSON响应结构可能会随时间变化。如果代码突然失效,请重新检查NBA官网的网络请求,以获取最新的API信息。请求频率与限制: 频繁或高速的请求可能会触发网站的反爬机制,导致IP被封禁。在实际应用中,应设置合理的请求间隔(例如使用time.sleep()),并考虑使用代理IP池。User-Agent: 保持User-Agent字符串更新,以模拟最新的浏览器行为,有助于降低被识别为爬虫的风险。错误处理: 在实际项目中,应加入更完善的错误处理机制,例如对网络请求失败、JSON解析异常等情况进行捕获和处理。道德与法律: 在进行网络爬取时,务必遵守网站的服务条款(Terms of Service)和当地的法律法规。仅获取公开数据,不进行恶意攻击或滥用资源。

通过直接调用后端API,我们能够高效且稳定地获取NBA选秀体测数据,避免了前端JavaScript渲染带来的复杂性。这种方法不仅适用于NBA官网,也适用于许多其他采用动态加载内容的网站,是现代网络数据采集的重要技术之一。

以上就是Python进阶:高效爬取NBA选秀体测数据的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/575728.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年11月10日 08:23:19
下一篇 2025年11月10日 08:24:18

相关推荐

  • 如何解决本地图片在使用 mask JS 库时出现的跨域错误?

    如何跨越localhost使用本地图片? 问题: 在本地使用mask js库时,引入本地图片会报跨域错误。 解决方案: 要解决此问题,需要使用本地服务器启动文件,以http或https协议访问图片,而不是使用file://协议。例如: python -m http.server 8000 然后,可以…

    2025年12月24日
    200
  • CSS元素设置em和transition后,为何载入页面无放大效果?

    css元素设置em和transition后,为何载入无放大效果 很多开发者在设置了em和transition后,却发现元素载入页面时无放大效果。本文将解答这一问题。 原问题:在视频演示中,将元素设置如下,载入页面会有放大效果。然而,在个人尝试中,并未出现该效果。这是由于macos和windows系统…

    2025年12月24日
    200
  • 如何模拟Windows 10 设置界面中的鼠标悬浮放大效果?

    win10设置界面的鼠标移动显示周边的样式(探照灯效果)的实现方式 在windows设置界面的鼠标悬浮效果中,光标周围会显示一个放大区域。在前端开发中,可以通过多种方式实现类似的效果。 使用css 使用css的transform和box-shadow属性。通过将transform: scale(1.…

    2025年12月24日
    200
  • 如何用HTML/JS实现Windows 10设置界面鼠标移动探照灯效果?

    Win10设置界面中的鼠标移动探照灯效果实现指南 想要在前端开发中实现类似于Windows 10设置界面的鼠标移动探照灯效果,有两种解决方案:CSS 和 HTML/JS 组合。 CSS 实现 不幸的是,仅使用CSS无法完全实现该效果。 立即学习“前端免费学习笔记(深入)”; HTML/JS 实现 要…

    2025年12月24日
    000
  • 如何用前端实现 Windows 10 设置界面的鼠标移动探照灯效果?

    如何在前端实现 Windows 10 设置界面中的鼠标移动探照灯效果 想要在前端开发中实现 Windows 10 设置界面中类似的鼠标移动探照灯效果,可以通过以下途径: CSS 解决方案 DEMO 1: Windows 10 网格悬停效果:https://codepen.io/tr4553r7/pe…

    2025年12月24日
    000
  • 如何用前端技术实现Windows 10 设置界面鼠标移动时的探照灯效果?

    探索在前端中实现 Windows 10 设置界面鼠标移动时的探照灯效果 在前端开发中,鼠标悬停在元素上时需要呈现类似于 Windows 10 设置界面所展示的探照灯效果,这其中涉及到了元素外围显示光圈效果的技术实现。 CSS 实现 虽然 CSS 无法直接实现探照灯效果,但可以通过以下技巧营造出类似效…

    2025年12月24日
    000
  • 使用 Mask 导入本地图片时,如何解决跨域问题?

    跨域疑难:如何解决 mask 引入本地图片产生的跨域问题? 在使用 mask 导入本地图片时,你可能会遇到令人沮丧的跨域错误。为什么会出现跨域问题呢?让我们深入了解一下: mask 框架假设你以 http(s) 协议加载你的 html 文件,而当使用 file:// 协议打开本地文件时,就会产生跨域…

    2025年12月24日
    200
  • 苹果浏览器网页背景图色差问题:如何解决背景图不一致?

    网页背景图在苹果浏览器上出现色差 一位用户在使用苹果浏览器访问网页时遇到一个问题,网页上方的背景图比底部的背景图明显更亮。 这个问题的原因很可能是背景图没有正确配置 background-size 属性。在 windows 浏览器中,背景图可能可以自动填满整个容器,但在苹果浏览器中可能需要显式设置 …

    2025年12月24日
    400
  • 苹果浏览器网页背景图像为何色差?

    网页背景图像在苹果浏览器的色差问题 在不同浏览器中,网站的背景图像有时会出现色差。例如,在 Windows 浏览器中显示正常的上层背景图,在苹果浏览器中却比下层背景图更亮。 问题原因 出现此问题的原因可能是背景图像未正确设置 background-size 属性。 解决方案 为确保背景图像在不同浏览…

    2025年12月24日
    500
  • 苹果电脑浏览器背景图亮度差异:为什么网页上下部背景图色差明显?

    背景图在苹果电脑浏览器上亮度差异 问题描述: 在网页设计中,希望上部元素的背景图与页面底部的背景图完全对齐。而在 Windows 中使用浏览器时,该效果可以正常实现。然而,在苹果电脑的浏览器中却出现了明显的色差。 原因分析: 如果您已经排除屏幕分辨率差异的可能性,那么很可能是背景图的 backgro…

    2025年12月24日
    000
  • 正则表达式在文本验证中的常见问题有哪些?

    正则表达式助力文本输入验证 在文本输入框的验证中,经常遇到需要限定输入内容的情况。例如,输入框只能输入整数,第一位可以为负号。对于不会使用正则表达式的人来说,这可能是个难题。下面我们将提供三种正则表达式,分别满足不同的验证要求。 1. 可选负号,任意数量数字 如果输入框中允许第一位为负号,后面可输入…

    2025年12月24日
    000
  • 如何在 VS Code 中解决折叠代码复制问题?

    解决 VS Code 折叠代码复制问题 在 VS Code 中使用折叠功能可以帮助组织长代码,但使用复制功能时,可能会遇到只复制可见部分的问题。以下是如何解决此问题: 当代码被折叠时,可以使用以下简单操作复制整个折叠代码: 按下 Ctrl + C (Windows/Linux) 或 Cmd + C …

    2025年12月24日
    000
  • 为什么多年的经验让我选择全栈而不是平均栈

    在全栈和平均栈开发方面工作了 6 年多,我可以告诉您,虽然这两种方法都是流行且有效的方法,但它们满足不同的需求,并且有自己的优点和缺点。这两个堆栈都可以帮助您创建 Web 应用程序,但它们的实现方式却截然不同。如果您在两者之间难以选择,我希望我在两者之间的经验能给您一些有用的见解。 在这篇文章中,我…

    2025年12月24日
    000
  • 姜戈顺风

    本教程演示如何在新项目中从头开始配置 django 和 tailwindcss。 django 设置 创建一个名为 .venv 的新虚拟环境。 # windows$ python -m venv .venv$ .venvscriptsactivate.ps1(.venv) $# macos/linu…

    2025年12月24日
    000
  • 花 $o 学习这些编程语言或免费

    → Python → JavaScript → Java → C# → 红宝石 → 斯威夫特 → 科特林 → C++ → PHP → 出发 → R → 打字稿 []https://x.com/e_opore/status/1811567830594388315?t=_j4nncuiy2wfbm7ic…

    2025年12月24日
    000
  • 为什么前端固定定位会发生移动问题?

    前端固定定位为什么会出现移动现象? 在进行前端开发时,我们经常会使用CSS中的position属性来控制元素的定位。其中,固定定位(position: fixed)是一种常用的定位方式,它可以让元素相对于浏览器窗口进行定位,保持在页面的固定位置不动。 然而,有时候我们会遇到一个问题:在使用固定定位时…

    2025年12月24日
    000
  • 深入剖析Ajax技术:揭开其核心技术原理与应用

    深入了解Ajax技术:探索其核心技术原理与应用Ajax(Asynchronous JavaScript and XML)是一种在Web开发中广泛应用的技术,它通过使用异步通信和JavaScript的技术手段,实现了在不刷新整个网页的情况下与服务器进行数据交互。在本文中,我们将深入了解Ajax技术的核…

    2025年12月24日
    000
  • 了解AJAX所需的参数是什么?

    深入了解AJAX的参数:您需要掌握哪些参数? 引言: 在现代Web开发中,AJAX(Asynchronous JavaScript and XML)是一个被广泛使用的技术,它可以实现异步加载数据,从而提升用户体验。AJAX的核心是通过发送HTTP请求与服务器进行交互,并将响应的数据动态地展示在页面上…

    2025年12月24日
    000
  • 深入解析AJAX参数:它们的重要性何在?

    AJAX的参数详解:为什么它们如此重要? 随着Web应用的复杂性不断增加,用户对于实时响应和无刷新的交互体验的需求也越来越高。在这样的背景下,AJAX(Asynchronous JavaScript and XML)成为了前端开发中的必备技术。它可以实现异步数据交互,从服务器请求数据并将其无缝地展示…

    2025年12月24日
    000
  • 通过使用Ajax函数实现异步数据交换的方法

    如何利用Ajax函数实现异步数据交互 随着互联网和Web技术的发展,前端与后端之间的数据交互变得十分重要。传统的数据交互方式,如页面刷新和表单提交,已经不能满足用户的需求。而Ajax(Asynchronous JavaScript and XML)则成为了实现异步数据交互的重要工具。 Ajax通过使…

    2025年12月24日
    000

发表回复

登录后才能评论
关注微信