揭秘数据竞赛胜利秘诀:探析A100在200场比赛中的优势

2022 年是 AI 领域发展的重要一年,在数据竞赛领域也同样如此,所有平台的总奖金超过了 500 万美元。

近日,机器学习竞赛分析平台 ML Contests 对 2022 年的数据竞赛进行了一次大规模统计。新报告回顾了 2022 年发生的所有值得关注的事。以下是对原文的编译整理。

重点内容:

成功参赛者的工具选择:Python、Pydata、Pytorch 和梯度提高的决策树。深度学习仍未取代梯度增强的决策树,尽管在结识增强方法时,前者通常价值会有所提升。Transformer 继续在 NLP 中占主导地位,并开始在计算机视觉中和卷积神经网络开始竞争。当今数据竞赛涵盖了广泛的研究领域,包括计算机视觉、NLP、数据分析、机器人、时间序列分析等。大集合模型在获胜方案中仍然很普遍,一些单模型解决方案也能赢。有多个活跃的数据竞赛平台存在。数据竞赛社区持续增长,在学界也是一样。大约有 50%获奖者是一人团队,50%的获奖者是首次得奖。有人使用了高端硬件,但 Google Colab 这样的免费资源也能赢得比赛

比赛和趋势

奖金数额最大的比赛是由美国复垦局赞助 Drivendata 的 Snow Cast Showdown 竞赛。参与者可获得 50 万美元的奖金,旨在通过为西部的不同地区提供准确的雪水流量估算,以帮助改善供水管理。与往常一样,Drivendata 详细撰写了比赛情况的文章并有详细的解决方案报告,非常值得一读。

2022 年最受欢迎的比赛是 Kaggle 的 American Express 默认预测竞赛,旨在预测客户是否会偿还贷款。有超过 4000 支队伍参赛,共 10 万美元奖金分发至前四名的队伍。今年第一次有首次参赛且单人队伍获得冠军,其使用了神经网络和 LightGBM 模型的集合。

最大的独立竞赛是斯坦福大学的 AI 审计挑战,该挑战为最佳的「模型、解决方案、数据集和工具」提供了 7.1 万美元的奖励池,以寻求方法解决「非法歧视的 AI 审核系统」的问题。

基于金融预测的三场比赛全部在 Kaggle 上:分别是 JPX 的东京证券交易所预测,Ubiquant 的市场预测以及 G-Research 的加密预测。

在不同方向的对比中,计算机视觉占比最高,NLP 位居第二,顺序决策问题(强化学习)正在兴起。Kaggle 通过在 2020 年引入模拟竞赛来回应这种流行的增长。Aicrowd 还举办了许多强化学习类竞赛。在 2022 年,其中有 25 个互动赛的比赛总额超过 30 万美元。

在 NeurIPS 2022 官方竞赛 Real Robot Challenge 中,参与者必须学会控制三指机器人,以将立方体移动到目标位置或将其定位在空间的特定点上,且要面朝正确的方向。参与者的策略每周在物理机器人上运行,结果更新到排行榜上。奖励为 5000 美元的奖品,以及在 NeurIPS 研讨会上演讲的学术荣誉。

平台

虽然人们都知道 Kaggle 和天池,但目前也有很多机器学习竞赛平台组成了活跃的生态系统。

下图为 2022 平台比较:

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

人人PyTorch,上A100能夺冠:分析完去年200场数据竞赛,我悟了

举一些例子:

Kaggle 是最成熟的平台之一,它在 2017 年被谷歌收购,并拥有最大的社区,最近吸引了 1000 万用户。在 Kaggle 上进行带奖金的比赛可能非常昂贵。除了举办比赛外,Kaggle 还允许用户托管数据集,笔记和模型。Codalab 是一个开源竞赛平台,由巴黎大学 – 萨克莱大学维护。任何人都可以注册,主持或参加比赛。其提供免费的 CPU 资源可用于推理,比赛组织者可以用自己的硬件进行补充。Zindi 是一个较小的平台,具有非常活跃的社区,专注于将机构与非洲的数据科学家联系起来。Drivendata 专注于具有社会影响的竞赛,并为 NASA 和其他组织开展了比赛。竞赛总是在深入的研究报告后跟进。Aicrowd 最初是瑞士联邦理工学院(EPFL)的研究项目,现在是前五名竞赛平台之一。它举办了几次 NeurIPS 官方比赛。

因赛AIGC 因赛AIGC

因赛AIGC解决营销全链路应用场景

因赛AIGC 73 查看详情 因赛AIGC

人人PyTorch,上A100能夺冠:分析完去年200场数据竞赛,我悟了

学术界

在大型平台上运行的比赛的大部分奖金都来自工业界,但是机器学习竞赛显然在学术界拥有更加丰富的历史,正如 Isabelle Guyon 今年在 NeurIPS 邀请演讲中所讨论的那样。

NeurIPS 是全球最负盛名的学术机器学习会议之一,过去十年中最重要的机器学习论文经常会在大会上呈现,包括 AlexNet,GAN,Transformer 和 GPT-3。

NeurIPS 在 2014 年首次在机器学习(CIML)研讨会方面举办了数据挑战赛,自 2017 年以来一直有竞赛环节。从那时起,竞赛和总奖金不断增长,在 2022 年 12 月达到了接近 40 万美元。

其他机器学习会议也举办了比赛,包括 CVPR、ICPR、IJCAI、ICRA、ECCV、PCIC 和 AutoML。

奖金

大约一半的机器学习比赛有超过 1 万美元的奖池。毫无疑问,许多有趣的比赛奖金不多,本报告仅考虑那些有货币奖品或学术荣誉的部分。通常,与享有声望的学术会议相关的数据比赛为获奖者提供了旅行赠款,以便他们参加会议。

虽然平均而言,一些比赛平台确实倾向于拥有比其他平台更大的奖池(见平台比较图表),但许多平台在 2022 年至少举办过一场奖池非常大的比赛 —— 总奖金排名前十的比赛包括在 DrivenData、Kaggle、CodaLab 和 AIcrowd 上运行的。

夺冠方法

该调查通过问卷和观察代码的方式分析获胜算法使用的技术。

相当一致的是,Python 是竞赛获胜者的首选语言,这对于人们来说可能不是个预料之外的结果。在使用 Python 的人中,大约一半主要使用 Jupyter Notebook,另一半使用标准 Python 脚本。

人人PyTorch,上A100能夺冠:分析完去年200场数据竞赛,我悟了

一个主要使用 R 语言的获胜解决方案是:Amir Ghazi 赢得了 Kaggle 上预测 2022 年美国男子大学篮球锦标赛获胜者的比赛。他通过使用 —— 显然是逐字复制 ——2018 年同类竞赛获胜解决方案的代码来做到这一点,该方法由 Kaggle Grandmaster Darius Barušauskas 撰写。让人难以想象的是,Darius 也参加了 2022 年的这场比赛,他使用新的方法,并获得了第 593 名。

获奖者使用的 Python 包

在观察获胜解决方案中使用的软件包时,结果显示所有使用 Python 的获奖者都在一定程度上使用了 PyData 堆栈。

将最流行的软件包分为三类 —— 核心工具包、NLP 类和计算机视觉类。

人人PyTorch,上A100能夺冠:分析完去年200场数据竞赛,我悟了

其中,深度学习框架 PyTorch 的增长一直稳定,其从 2021 年到 2022 年的跃升非常明显:PyTorch 从获胜解决方案的 77% 增加到了 96%。

在 46 个使用深度学习的获奖解决方案中,44 个使用 PyTorch 作为他们的主要框架,只有两个使用 TensorFlow。更明显的是,使用 TensorFlow 赢得的两项比赛之一,Kaggle 的大堡礁竞赛,提供额外的 5 万美元奖金给使用 TensorFlow 的获胜团队。另一个使用 TensorFlow 获胜的比赛使用了高级的 Keras API。

人人PyTorch,上A100能夺冠:分析完去年200场数据竞赛,我悟了

虽然有 3 名获胜者使用 pytorch-lightning 和 1 名使用 fastai—— 两者都建立在 PyTorch 之上 —— 但绝大多数人直接使用 PyTorch。

现在或许可以说至少在数据竞赛上,PyTorch 赢得了机器学习框架之争。这与更广泛的机器学习研究趋势一致。

值得注意的是,我们没有发现任何获胜团队使用其他神经网络库的实例,例如 JAX(由 Google 构建,由 DeepMind 使用)、PaddlePaddle(由百度开发)或 MindSpore(由华为开发)。

计算机视觉

工具有一统江湖的趋势,技术却不是。在 CVPR 2022 上,ConvNext 架构被介绍为「2020 年代的 ConvNet」,并证明其性能优于最近的基于 Transformer 的模型。它被用于至少两个赢得比赛的计算机视觉解决方案,而 CNN 总体上仍是迄今为止计算机视觉竞赛获奖者中最爱用的神经网络架构。

人人PyTorch,上A100能夺冠:分析完去年200场数据竞赛,我悟了

计算机视觉与语言建模非常相似的地方在于使用预训练模型:在公共数据集(例如 ImageNet)上训练的易于理解的架构。最受欢迎的存储库是 Hugging Face Hub,可通过 timm 访问,这使得加载数十种不同计算机视觉模型的预训练版本变得极其方便。

使用预训练模型的优势是显而易见的:真实世界的图像和人类生成的文本都有一些共同的特征,使用预训练模型可以带来常识的知识,类似于使用了更大、更通用的训练数据集。

通常,预先训练好的模型会根据特定任务的数据(例如比赛组织者提供的数据)进行微调 —— 进一步训练,但并非总是如此。Image Matching Challenge 的获胜者使用了预训练模型,完全没有任何微调 ——「由于本次比赛中训练和测试数据的质量(不同),我们没有使用提供的训练进行 fine-tuning,因为我们认为它会不太有效。」这个决定得到了回报。

到目前为止,2022 年获奖者中最受欢迎的预训练计算机视觉模型类型是 EfficientNet,顾名思义,它的优势在于比许多其他模型占用资源更少。

人人PyTorch,上A100能夺冠:分析完去年200场数据竞赛,我悟了

自然语言处理

自 2017 年问世以来,基于 Transformer 的模型一直主导着自然语言处理(NLP)领域。Transformer 是 BERT 和 GPT 中的「T」,也是 ChatGPT 中的核心。

因此,自然语言处理竞赛中所有获胜的解决方案都是基于 Transformer 的模型为核心也就不足为奇了。它们都是在 PyTorch 中实现的,这并不奇怪。他们都使用了预训练模型,使用 Hugging Face 的 Transformers 库加载,几乎所有模型都使用了 Microsoft Research 的 DeBERTa 模型版本 —— 通常是 deberta-v3-large。

它们其中的许多都需要大量的计算资源。例如,谷歌 AI4Code 获胜者运行 A100(80GB)大约 10 天,以训练单个 deberta-v3-large 用于他们的最终解决方案。这种方法是个例外(使用单个主模型和固定的训练 / 评估拆分)—— 所有其他解决方案都大量使用集成模型,并且几乎都使用各种形式的 k-fold 交叉验证。例如,Jigsaw Toxic Comments 比赛的获胜者使用了 15 个模型输出的加权平均值。

基于 Transformer 的集成有时会与 LSTM 或 LightGBM 结合使用,也有至少两个伪标签实例被有效地用于获胜的解决方案。

XGBoost 曾经是 Kaggle 的代名词。然而,LightGBM 显然是 2022 年获奖者最喜欢的 GBDT 库 —— 获奖者在他们的解决方案报告或问卷中提到 LightGBM 的次数与 CatBoost 和 XGBoost 的总和相同,CatBoost 位居第二,XGBoost 出人意料地排名第三。

计算和硬件

人人PyTorch,上A100能夺冠:分析完去年200场数据竞赛,我悟了

正如大致预期的,大多数获胜者使用 GPU 进行训练 —— 这可以极大地提高梯度提升树的训练性能,并且实际上是深度神经网络所必需的。相当多的获奖者可以访问其雇主或大学提供的集群,通常包括 GPU。

有点令人惊讶的是,我们没有发现任何使用 Google 的张量处理单元 TPU 来训练获胜模型的实例。我们也没有看到任何关于苹果 M 系列芯片上训练的获胜模型,苹果芯片自 2022 年 5 月以来一直得到 PyTorch 的支持。

谷歌的云笔记本解决方案 Colab 很受欢迎,有一位获胜者使用免费套餐,一位使用 Pro 套餐,另一位使用 Pro+(我们无法确定第四位获胜者使用 Colab 所使用的套餐)。

本地个人硬件比云硬件更受欢迎,尽管九名获奖者提到了他们用于训练的 GPU,但没有具体说明他们使用的是本地 GPU 还是云 GPU。

人人PyTorch,上A100能夺冠:分析完去年200场数据竞赛,我悟了

最受欢迎的 GPU 是最新的高端 AI 加速卡 NVIDIA A100(这里将 A100 40GB 和 A100 80GB 放在一起,因为获胜者并不总能区分两者),而且通常使用多块 A100—— 例如,Zindi 的 Turtle Recall 竞赛的获胜者使用 8 块 A100(40GB)GPU,另外两个获胜者使用 4 块 A100。

团队构成

许多比赛允许每个团队最多 5 名参赛者,团队可以由个人或较小的团队在成绩提交截止日期前的某个 deadline 前「合并」在一起组成。

一些比赛允许更大的团队,例如,Waymo 的开放数据挑战允许每个团队最多 10 个人。

人人PyTorch,上A100能夺冠:分析完去年200场数据竞赛,我悟了

结论

这是对 2022 年机器学习竞赛的大致观察。希望你可以从中找到一些有用信息。

2023 年有许多激动人心的新比赛,我们期待在这些比赛结束时发布更多见解。

以上就是揭秘数据竞赛胜利秘诀:探析A100在200场比赛中的优势的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/557618.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年11月9日 23:13:50
下一篇 2025年11月9日 23:14:53

相关推荐

  • ai做html怎么运行_AI生成html运行步骤【教程】

    答案是使用AI生成HTML代码后,将其保存为.html文件并用浏览器打开即可运行。具体步骤为:1. 在AI工具中输入需求生成HTML代码;2. 将代码复制到文本编辑器并另存为index.html,编码选UTF-8,类型选“所有文件”;3. 双击该文件用浏览器打开,若无法正常显示需检查文件后缀、编码及…

    2025年12月23日
    000
  • 动态生成HTML表格:优化JavaScript数据展示与导出

    本文旨在解决JavaScript中动态生成HTML表格时遇到的代码冗余和样式控制难题。通过引入数据驱动的编程思想,我们将数据与视图逻辑分离,首先将表格内容组织为JavaScript对象数组,然后利用一个通用的函数将这些结构化数据渲染为可读性强、易于维护且支持灵活样式的HTML表格字符串。这种方法不仅…

    2025年12月23日
    000
  • HTML5性能优化怎么实现_HTML5新特性在性能优化方面的应用方法

    HTML5通过语义化标签、Web Storage、Canvas/SVG、Service Worker和原生媒体支持等技术提升性能:1. 语义化标签优化渲染效率;2. Web Storage减少网络请求;3. Canvas/SVG降低资源加载量;4. Service Worker实现离线缓存;5. 原…

    2025年12月23日
    000
  • 利用UTM参数与GTM优化链接点击来源追踪

    本文详细阐述了如何通过UTM参数精准追踪营销链接的点击来源,并深入探讨了Google Tag Manager (GTM) 在此过程中的高级应用。文章首先介绍了UTM参数的构成、生成方法及其在Google Analytics中的自动解析机制,强调其在识别流量来源方面的核心作用。随后,探讨了GTM如何通…

    2025年12月23日
    000
  • 如何通过HTML在线展示数据_HTML在线数据展示实现与可视化方案

    网页展示数据需结合HTML、CSS与JavaScript,首选table展示结构化数据,配合Chart.js等库实现可视化图表,通过fetch加载远程JSON动态渲染内容,并利用响应式设计与交互优化提升用户体验。 在网页中展示数据,核心是将结构化信息清晰、直观地呈现给用户。HTML本身是内容载体,结…

    2025年12月23日
    000
  • html在线几何图形绘制 html在线SVG应用实战教程

    使用HTML与SVG结合可高效绘制几何图形。SVG基于XML,支持圆形、矩形、多边形、路径等,在任意分辨率下清晰。1. 基础元素包括rect、circle、ellipse、line、polygon、polyline和path。2. 实战示例:用polygon绘制三角形,path绘制五角星和弧线仪表盘…

    2025年12月23日
    000
  • 单页应用(SPA)中特定分类数据的API直链访问与性能考量

    针对单页应用(SPA),本文探讨了如何通过URL直接访问特定分类数据,而非依赖客户端UI交互。文章揭示了SPA在初始加载时已获取所有数据,因此客户端分类选择对数据加载量无影响。核心策略是绕过前端界面,直接调用后端API获取所需数据,从而实现高效且精准的数据访问,并提供了具体API示例。 理解单页应用…

    2025年12月23日
    100
  • jQuery循环中动态表格数据访问与比较教程

    本文详细介绍了在jQuery循环中处理动态生成表格数据时常见的挑战与解决方案。我们将探讨如何正确使用.find()代替.children()来定位嵌套元素,解决.data()方法返回数字类型导致比较错误的问题,并提供一个基于事件监听的实用示例,以实现对用户修改数据的实时检测和保存。 动态表格数据处理…

    2025年12月22日
    000
  • 揭秘canvas技术在数据可视化中的独特威力

    发现Canvas技术在数据可视化中的独特作用 随着数据时代的到来,数据可视化成为了一种重要的方式来呈现大量的数据。在数据可视化中,Canvas技术以其独特的优势在各个领域展示了巨大的潜力。本文将着重介绍Canvas技术在数据可视化中的独特作用,并给出具体的代码示例。 Canvas是HTML5中的一个…

    好文分享 2025年12月21日
    000
  • 使用localstorage存储数据所需的包有哪些?

    localstorage是HTML5中的一项重要技术,它可以用来在客户端本地存储数据。在使用localstorage存储数据之前,我们需要确保在代码中引入合适的包来操作这个功能。 在使用localstorage之前,我们需要在HTML文件中添加以下代码来引入localstorage的相关包: 在以上…

    2025年12月21日
    000
  • 无法将数据保存到localstorage,为什么?

    为什么我的数据无法保存到localstorage中? 本文将详细讨论为何在某些情况下,数据无法保存到本地存储(localstorage)中。同时,我将提供一些具体的代码示例以帮助您解决这个问题。 首先,让我们来了解一下什么是localstorage。localstorage是HTML5中引入的一种W…

    2025年12月21日
    000
  • 如何将HTML表单数据作为文本并发送到html2pdf?

    html2pdf 是一个 JavaScript 包,允许开发人员将 html 转换为 canvas、pdf、图像等。它将 html 作为参数并将其添加到 pdf 或所需文档中。此外,它还允许用户在添加 html 内容后下载该文档。 在这里,我们将访问表单并使用html2pdf npm包将其添加到pd…

    2025年12月21日
    000
  • HTML中如何用post提交数据

    http/1.1 协议规定的 http 请求方法有 options、get、head、post、put、delete、trace、connect 这几种。其中 post 一般用来向服务端提交数据,本文主要讨论 post 提交数据的几种方式 http/1.1 协议规定的 http 请求方法有 opti…

    好文分享 2025年12月21日
    000
  • 服务端主动发送数据回客户端在H5里的实现步奏

    我们知道,在server sent event里,通过eventsource对象接收服务器发送事件的通知是有三个事件的,message, open, error这三种,今天就给大家演示一下服务端主动发送数据回客户端在h5里的实现步奏。 Server Sent Event Server Sent Ev…

    好文分享 2025年12月21日
    000
  • 可视化图表制作_javascript数据展示

    答案是使用JavaScript库如Chart.js、D3.js和ECharts可实现交互式数据可视化;其中Chart.js适合快速集成常见图表,D3.js适用于高度自定义的复杂图形,ECharts支持高级图表且中文文档完善;以Chart.js创建柱状图需引入库、添加canvas容器并初始化Chart…

    2025年12月21日
    000
  • Odoo 14 POS:深入理解订单与现金支付明细并高效调试

    本教程旨在指导odoo 14 pos开发者如何准确读取销售会话中的订单及其现金支付明细,并计算总现金支付金额。文章将详细介绍odoo前端数据模型的访问方法,并着重强调利用浏览器开发者工具和`debugger`关键字进行运行时对象结构检查与调试的最佳实践,帮助开发者高效解决数据访问中的常见问题。 Od…

    2025年12月21日
    000
  • Odoo 14 POS会话中现金支付金额的准确获取与调试指南

    针对odoo 14 pos会话中读取订单并计算现金支付总额的需求,本文将详细指导如何正确访问支付明细对象属性。重点介绍利用浏览器开发者工具设置断点进行实时调试的方法,帮助开发者深入理解数据结构,从而高效准确地实现功能,避免因属性名称不匹配而导致的常见问题。 1. 理解Odoo POS数据模型 在Od…

    2025年12月21日
    000
  • javascript_如何实现数据可视化

    JavaScript实现数据可视化需将数据转为图形,常用Chart.js、D3.js等库快速构建图表,或用Canvas/SVG原生绘图;通过fetch获取数据并动态更新视图,如Chart.js调用update()刷新,最终实现交互式可视化。 JavaScript 实现数据可视化,核心是将数据转换成图…

    2025年12月21日
    000
  • Ionic 应用在浏览器刷新时状态持久化策略

    当 ionic 应用在浏览器中被刷新时,浏览器会执行完整的页面重载,导致应用状态和数据丢失。本文旨在阐明为何无法阻止浏览器进行全面重载,并提供一个专业的解决方案:利用 capacitor preferences 等客户端存储机制来持久化关键应用状态和数据,确保在浏览器刷新后也能恢复应用到预期状态,从…

    2025年12月21日
    100
  • p5.js中类方法声明的语法解析与常见错误修复指南

    本文旨在解决从java processing迁移至p5.js时常见的语法错误,特别是类内部方法声明不当引发的问题。我们将深入探讨javascript中全局函数与类方法声明的语法差异,提供清晰的示例代码,并指导如何识别和修复“unexpected token”及“declaration or stat…

    2025年12月21日
    000

发表回复

登录后才能评论
关注微信