从维基百科术语表中提取所有页面的浏览量

从维基百科术语表中提取所有页面的浏览量

本文将介绍如何从维基百科的术语表页面提取所有子页面的浏览量。由于术语表页面的内容是非结构化的,因此无法像处理分类页面那样直接提取浏览量。本文将指导你如何通过解析页面内容提取页面标题,并使用维基百科 Pageviews API 获取每个页面的浏览量,同时提供Python示例代码演示该过程。

提取页面标题

由于维基百科术语表页面的结构是非结构化的,我们需要首先解析页面内容,提取所有链接指向的页面标题。 这通常涉及使用 HTML 解析库,例如 Python 中的 Beautiful Soup。

import requestsfrom bs4 import BeautifulSoupdef extract_page_titles(url):    """    从维基百科页面提取所有链接的页面标题。    Args:        url (str): 维基百科页面的 URL。    Returns:        list: 页面标题列表。    """    try:        response = requests.get(url)        response.raise_for_status()  # 检查请求是否成功        soup = BeautifulSoup(response.content, 'html.parser')        # 根据实际页面结构调整选择器        links = soup.find_all('a', href=True)        page_titles = []        for link in links:            href = link['href']            if href.startswith('/wiki/') and not any(x in href for x in [':', '#']):                title = href.replace('/wiki/', '')                page_titles.append(title)        return page_titles    except requests.exceptions.RequestException as e:        print(f"请求错误: {e}")        return []    except Exception as e:        print(f"解析错误: {e}")        return []# 示例用法url = 'https://en.wikipedia.org/wiki/Glossary_of_areas_of_mathematics'page_titles = extract_page_titles(url)print(page_titles)

代码解释:

导入库: 导入 requests 用于发送 HTTP 请求,BeautifulSoup 用于解析 HTML。extract_page_titles(url) 函数:接受维基百科页面 URL 作为输入。使用 requests.get() 获取页面内容。使用 BeautifulSoup 解析 HTML 内容。使用 soup.find_all(‘a’, href=True) 查找所有 标签,并检查它们是否有 href 属性。遍历所有找到的链接,提取 href 属性。过滤掉不符合要求的链接,例如指向站内其他位置的链接(包含:或#),以及非/wiki/开头的链接。从 href 属性中提取页面标题(删除 /wiki/ 前缀)。返回页面标题列表。示例用法:指定维基百科术语表页面的 URL。调用 extract_page_titles() 函数获取页面标题列表。打印页面标题列表。

注意事项:

你需要根据实际的维基百科页面结构调整 soup.find_all() 中的选择器。 维基百科的页面结构可能会改变,所以需要根据实际情况进行调整。该代码仅提取以/wiki/开头的链接,并排除了包含:和#的链接。你可能需要根据你的具体需求修改过滤条件。错误处理:添加了 try…except 块来处理可能出现的请求错误和解析错误。

获取页面浏览量

提取页面标题后,可以使用维基百科 Pageviews API 获取每个页面的浏览量。

import requestsimport jsondef get_pageviews(titles, start='20000101', end='20231001'):    """    从维基百科 Pageviews API 获取页面的浏览量。    Args:        titles (list): 页面标题列表。        start (str): 开始日期 (YYYYMMDD)。        end (str): 结束日期 (YYYYMMDD)。    Returns:        dict: 页面标题和浏览量组成的字典。    """    endpoint = "https://pageviews.toolforge.org/api/views/"    pageviews = {}    # API 有标题数量限制,所以分批处理    batch_size = 50    for i in range(0, len(titles), batch_size):        batch = titles[i:i + batch_size]        titles_str = "|".join(batch)        url = f"{endpoint}?page={titles_str}&start={start}&end={end}"        try:            response = requests.get(url)            response.raise_for_status()            data = response.json()            for page in batch:                pageviews[page] = data.get(page, {'views': 0})['views']  # 默认浏览量为 0        except requests.exceptions.RequestException as e:            print(f"请求错误: {e}")        except json.JSONDecodeError as e:            print(f"JSON 解析错误: {e}")    return pageviews# 示例用法# 假设 page_titles 是从上一步提取的页面标题列表if page_titles: # 检查列表是否为空    pageviews = get_pageviews(page_titles)    for title, views in pageviews.items():        print(f"{title}: {views}")else:    print("没有提取到页面标题,无法获取浏览量。")

代码解释:

导入库: 导入 requests 用于发送 HTTP 请求,json 用于解析 JSON 响应。get_pageviews(titles, start, end) 函数:接受页面标题列表、开始日期和结束日期作为输入。构建 Pageviews API 的 URL。发送 HTTP GET 请求到 API。解析 API 响应的 JSON 数据。提取每个页面的浏览量,并将结果存储在字典中。返回页面标题和浏览量组成的字典。批量处理: 由于 Pageviews API 对一次请求中可以传递的标题数量有限制,代码将标题列表分成小批次进行处理。 batch_size 变量控制每个批次的大小。错误处理: 添加了 try…except 块来处理可能出现的请求错误和 JSON 解析错误。示例用法:调用 get_pageviews() 函数获取页面浏览量。遍历结果字典,打印每个页面标题和对应的浏览量。

注意事项:

Pageviews API 有请求频率限制。 如果你需要获取大量页面的浏览量,请注意控制请求频率,避免被 API 限制。 可以考虑使用 time.sleep() 函数在每次请求之间添加延迟。start 和 end 参数指定要获取浏览量的时间范围。 请根据你的需求修改这些参数。API 响应的 JSON 结构可能会改变。 如果代码无法正常工作,请检查 API 文档并更新代码。增加空列表的判断,避免因page_titles为空导致程序报错。

总结

通过以上步骤,你可以从维基百科的术语表页面提取所有子页面的浏览量。 首先,你需要解析页面内容,提取所有链接指向的页面标题。 然后,使用维基百科 Pageviews API 获取每个页面的浏览量。 请注意处理 API 的请求频率限制,并根据实际的页面结构和 API 响应更新代码。 此外,请注意遵守维基媒体的使用条款。

以上就是从维基百科术语表中提取所有页面的浏览量的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/1291264.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年12月11日 07:19:58
下一篇 2025年12月11日 07:20:11

相关推荐

  • OKB币是什么?和OKX交易所的关系是?值得投资吗?

    OKB是由OK Blockchain基金会发行的全球通用积分,是全球领先的数字资产服务平台OKX的核心功能型通证。它不仅仅是一种简单的数字资产,更是支撑整个OKX生态系统的关键支柱。 OKB的持有者可以享受到平台交易费率的折扣、参与新项目上线的优先权(Jumpstart),并且它作为OKX自主研发的…

    2025年12月11日
    000
  • 什么是创世区块?一文通俗解释创世区块

    在探讨区块链技术时,一个不可绕过的概念就是创世区块(Genesis Block)。顾名思义,它是一条区块链上的第一个区块,是整个链条的起点和基石。可以把它想象成一本数字账本的第一页,后续的所有记录都建立在这一页的基础之上。 每一条独立的区块链,从比特币到以太坊,再到其他成千上万的公链或私有链,都有其…

    2025年12月11日
    000
  • 以太坊的“合并”是什么?一文带你搞懂以太坊“合并”

    以太坊的“合并”(The Merge)指的是以太坊网络一次极其关键的技术升级。这次升级的核心是将以太坊主网与一个名为“信标链”(Beacon Chain)的独立区块链进行合并。通过这次操作,以太坊网络的共识机制发生了根本性的改变,从原有的工作量证明(Proof of Work, PoW)机制转换为了…

    2025年12月11日
    000
  • 什么是侧链?一文带你搞懂侧链是什么意思

    在区块链技术的世界里,随着应用场景的不断增多,主链的性能瓶颈问题日益凸显。为了解决交易拥堵、手续费高昂以及功能单一等问题,开发者们探索了多种扩容方案,侧链(Sidechain)便是其中一种备受关注的技术。理解侧链,就像理解一个庞大交通系统中的高效支线网络,它为主干道分担压力的同时,也开辟了新的可能性…

    2025年12月11日
    000
  • atas如何查看以太坊 一文带你了解以太坊atas查看步骤

    想要追踪您在以太坊网络上的交易记录或查看某个地址的资产情况吗?其实过程非常简单。本文将为您详细介绍如何使用主流的以太坊浏览器,轻松掌握查询地址和交易状态的方法,让您对链上动态了如指掌。 以太坊全球主流平台官网直达: 1、币安binance:  2、欧易OKX: 3、火币HTX: 4、大门Gate.i…

    2025年12月11日
    000
  • 什么是DeFi聚合器?一文带你了解DeFi聚合器

    去中心化金融(DeFi)的世界充满了创新与机遇,它构建了一个无需许可、透明的金融系统。随着协议和应用数量的爆炸式增长,用户面临着一个全新的挑战:信息过载与操作复杂性。不同的借贷平台提供着动态变化的利率,去中心化交易所(DEX)的流动性分散在各个角落,这使得普通用户很难找到最优的交易路径或收益策略。正…

    2025年12月11日
    000
  • 自动做市商 (AMM) 如何运作?通俗解释自动做市商的运作原理

    自动做市商(AMM)是去中心化金融(DeFi)领域的一项核心技术,它彻底改变了数字资产的交易方式。要理解自动做市商,可以将其想象成一个无需人工干预的、全天候自动运行的货币兑换亭。用户与这个兑换亭进行交互,而不是像传统交易所那样与其他交易者进行点对点的买卖匹配。这个兑换亭根据一个预设的数学公式来自动计…

    2025年12月11日
    000
  • BNB 认证服务 (BAS币) 2025–2030年价格预测 :未来价格能达到多少?

    目录  BAS币最新新闻和动态BNB认证服务(BAS)是什么?BNB 认证服务 开发团队介绍BAS币是什么?BAS 代币经济学BNB 认证服务 (BAS) 价格预测 2025–2030BNB 认证服务 (BAS) 价格预测布林带和动量指标BNB 认证服务 (BAS) 价格预测2025–2030BNB…

    2025年12月11日 好文分享
    000
  • 区块链项目中的治理是什么?通俗解释区块链项目中的治理

    区块链项目中的治理,可以被理解为一个去中心化系统赖以生存和发展的“规则制定”与“决策执行”机制。在一个没有中央权威机构的数字世界里,项目如何进行升级、如何修复漏洞、如何分配资金、如何应对突发事件,都需要一套明确的流程来协调所有参与者的行动。这套流程就是治理。它不同于传统公司的董事会决策,因为它旨在将…

    2025年12月11日
    000
  • ZK-SNARKs和ZK-STARKs有什么区别?三分钟带你搞懂两者的区别

    零知识证明(Zero-Knowledge Proofs)允许一方(证明者)向另一方(验证者)证明一个陈述是正确的,而无需透露该陈述之外的任何信息。在区块链和隐私计算领域,ZK-SNARKs和ZK-STARKs是实现这一目标的两项关键技术。它们都属于零知识证明,但在其底层设计、安全假设和性能表现上存在…

    2025年12月11日
    000
  • Layer 2中的rollup是什么?通俗解释Layer 2中的rollup

    在探讨区块链技术时,经常会遇到一个核心挑战:可扩展性。我们可以把以太坊这样的主区块链(Layer 1)想象成一条城市的主干道。当交通流量(也就是交易数量)非常大的时候,这条主干道就会变得异常拥堵,导致通行缓慢并且“过路费”(交易手续费)飙升。为了解决这个问题,人们提出了Layer 2方案,它好比在主…

    2025年12月11日
    000
  • 什么是加密桥?一文带你搞懂加密桥是什么意思

    在区块链技术的世界里,存在着成百上千条独立的公链,比如人们熟知的比特币、以太坊、Solana等。每一条链都像一个独立的数字王国,拥有自己的规则、共识机制和原生资产。这些“王国”之间在早期是相互隔离的,它们的数据和资产无法直接进行交互。这就形成了一个个“资产孤岛”,极大地限制了数字资产的流动性和去中心…

    2025年12月11日
    000
  • 稳定币有哪些不同类型?稳定币类型汇总大全

    稳定币是一种特殊的加密货币,其设计目标是保持价值的稳定性。为了实现这一目标,稳定币通常会与某种外部资产的价值进行挂钩,例如法定货币、大宗商品或其他加密资产。这种设计使其在波动的加密市场中扮演着重要的角色,为用户提供了一种相对可靠的价值储存和交易媒介。根据其背后的支撑机制和稳定方式,稳定币可以被划分为…

    2025年12月11日
    000
  • 以太坊合约部署到哪里 -通俗讲解以太坊合约部署

    部署以太坊智能合约,并非简单地将其上传到某个单一的地方。它更像是在不同环境中发布软件,需要根据合约的开发阶段选择合适的“服务器”。本文将通俗地讲解智能合约的几个主要部署地点,帮助您理解其中的区别和选择逻辑。 以太坊合约主流平台地址及app 1、币安Binance: 2、欧易OKX: 3、火币HTX:…

    2025年12月11日
    000
  • 主网和测试网有什么区别?通俗解释主网和测试网的区别

    在区块链和加密货币领域,经常会听到主网(Mainnet)和测试网(Testnet)这两个术语。它们是任何一个区块链项目都不可或缺的两个平行网络环境。尽管它们在技术架构和代码基础上可能几乎完全相同,但其功能、目的和内在价值却有着天壤之别。理解这两者之间的差异对于开发者、用户和投资者都至关重要。 简单来…

    2025年12月11日
    000
  • 特 朗普(Trump)唯一顶级叙事,WLFI有哪些相关概念项目可以关注?

    在当前快速变化的市场环境中,特定叙事往往能引爆巨大的关注度。其中,与知名政治人物相关的概念,即“PoliFi”,正逐渐成为一个不可忽视的赛道。唐纳德·Trump作为一位极具话题性和影响力的公众人物,其相关的文化符号和口号自然而然地延伸到了数字资产领域。 所谓的“WLFI”(Wolf of All S…

    2025年12月11日
    000
  • CAMP Network(CAMP币)是什么?怎么样?CAMP代币经济与未来前景分析

    目录 什么是CAMP Network来源证明协议CAMP 代币经济主要交易所上市及机构支持技术基础设施和可扩展性解决方案AI代理集成和货币化机会CAMP币价格长期预测CAMP2025 年价格预测CAMP2026-2031 年价格预测CAMP2031-2036 年价格预测投资考虑和风险分析增长潜力因素…

    2025年12月11日
    000
  • 喜报:比特币(BTC)「喇叭」形态指向26万美元目标位,技术指标发出「超卖」警报

    目录 关键要点:BTC价格本轮周期或挑战26万美元大关短期持有者MVRV指标跌至四月以来最低水平 ‍ 尽管比特币价格从历史高点回落12%,但短期持有者的MVRV指标已进入超卖区域,暗示底部或将形成,未来有望推动价格向26万美元迈进。 关键要点: 比特币呈现看涨扩音器形态,预示本轮周期内价格可能上探1…

    2025年12月11日
    000
  • 加密货币行情软件APP有哪些好用的?2025加密货币行情软件APP下载

    看行情首选CoinMarketCap或CoinGecko查基础数据,TradingView做技术分析,Coinglass监控合约风险,三者结合覆盖看涨跌、画图、玩期货需求。 想知道看行情用什么APP好,其实关键看你主要用来做什么。是想简单看看价格涨跌,还是做深入的技术分析,又或者盯着合约爆仓数据?不…

    2025年12月11日
    000
  • 以太坊领先,比特币落后:山寨季即将到来?

    目录 2025 年山寨币季:我们终于到了吗?比特币的主导地位面临压力以太坊成为专注山寨币季节指数:仍中性机构资本:一把双面刃供应过剩与Memecoin 的兴起选择性叙事驱动的循环Altseason 的怀疑论者加密货币ETF的作用2025年的结构性逆风需要改变什么更成熟、更具选择性的市场 2025 年…

    2025年12月11日
    000

发表回复

登录后才能评论
关注微信