Transformer六周年:当年连NeurIPS Oral都没拿到,8位作者已创办数家AI独角兽

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

Transformer六周年:当年连NeurIPS Oral都没拿到,8位作者已创办数家AI独角兽

从 ChatGPT 到 AI 画图技术,人工智能领域最近的这波突破或许都要感谢一下 Transformer。

今天是著名的 transformer 论文提交六周年的日子。

Transformer六周年:当年连NeurIPS Oral都没拿到,8位作者已创办数家AI独角兽

论文链接:https://arxiv.org/abs/1706.03762

家作 家作

淘宝推出的家装家居AI创意设计工具

家作 37 查看详情 家作

六年前,一篇名字有点浮夸的论文被上传到了预印版论文平台 arXiv 上,「xx is All You Need」这句话被 AI 领域的开发者们不断复述,甚至已经成了论文标题的潮流,而 Transformer 也不再是变形金刚的意思,它现在代表着 AI 领域最先进的技术。

六年后,回看当年的这篇论文,我们可以发现很多有趣或鲜为人知的地方,正如英伟达 AI 科学家 Jim Fan 所总结的那样。

Transformer六周年:当年连NeurIPS Oral都没拿到,8位作者已创办数家AI独角兽

「注意力机制」并不是 Transformer 作者所提出的

Transformer 模型抛弃了传统的 CNN 和 RNN 单元,整个网络结构完全是由注意力机制组成。

虽然 Transformer 论文的名字是《Attention is All You Need》,我们也因它而不断推崇注意力机制,但请注意一个有趣的事实:并不是 Transformer 的研究者发明了注意力,而是他们把这种机制推向了极致。

注意力机制(Attention Mechanism)是由深度学习先驱 Yoshua Bengio 带领的团队于 2014 年提出的:

《Neural Machine Translation by Jointly Learning to Align and Translate》,标题比较朴实。

在这篇 ICLR 2015 论文中,Bengio 等人提出了一种 RNN +「上下文向量」(即注意力)的组合。虽然它是 NLP 领域最伟大的里程碑之一,但相比 transformer,其知名度要低得多,Bengio 团队的论文至今已被引用 2.9 万次,Transformer 有 7.7 万次。

Transformer六周年:当年连NeurIPS Oral都没拿到,8位作者已创办数家AI独角兽

AI 的注意力机制,自然是仿照人类的视觉注意力而来。人类大脑里有一种天生能力:当我们看一幅图时,先是快速扫过图片,然后锁定需要重点关注的目标区域。

如果不放过任何局部信息,必然会作很多无用功,不利于生存。同样地,在深度学习网络中引入类似的机制可以简化模型,加速计算。从本质上说,Attention 就是从大量信息中有筛选出少量重要信息,并聚焦到这些重要信息上,忽略大多不重要的信息。

近年来,注意力机制被广泛应用在深度学习的各个领域,如在计算机视觉方向用于捕捉图像上的感受野,或者 NLP 中用于定位关键 token 或者特征。大量实验证明,添加了注意力机制的模型在图像分类、分割、追踪、增强以及自然语言识别、理解、问答、翻译中任务中均取得了明显的性能提升。

引入了注意力机制的 Transformer 模型可以看做一种通用序列计算机(general-purpose sequence computer),注意力机制允许模型在处理输入序列时根据序列中不同位置的相关性分配不同的注意力权重,这使得 Transformer 能够捕捉到长距离的依赖关系和上下文信息,从而提高序列处理的效果。

但在当年,不论是 Transformer 还是最初的 attention 论文都没有谈到通用序列计算机。相反,作者们认为它是解决一个狭窄而具体的问题 —— 机器翻译的机制。所以未来的我们追溯起 AGI 的起源时,说不定可以追溯到「不起眼」的谷歌翻译。

虽然被 NeurIPS 2017 接收,但连个 Oral 都没拿到

Transformer 这篇论文虽然现在影响力很大,但在当年的全球顶级 AI 会议 NeurIPS 2017 上,连个 Oral 都没拿到,更不用说拿到奖项了。当年大会共收到 3240 篇论文投稿,其中 678 篇被选为大会论文,Transformer 论文就是被接收的论文之一,在这些论文中,40 篇为 Oral 论文,112 篇为 Spotlight 论文,3 篇最佳论文,一篇 Test of time award 奖项,Transformer 无缘奖项。

虽然无缘 NeurIPS 2017 论文奖项,但 Transformer 的影响力大家也是有目共睹的。

Jim Fan 评价说:在一项有影响力的研究变得有影响力之前,人们很难意识到它的重要性,这不是评委的错。不过,也有论文足够幸运,能够第一时间被发现,比如何恺明等人提出的 ResNet,当年获得了 CVPR 2016 最佳论文,这一研究当之无愧,得到了 AI 顶会的正确认可。但在 2017 年那个当下,非常聪明的研究者也未必能够预测现在 LLM 带来的变革,就像 20 世纪 80 年代一样,很少有人能预见到 2012 年以来深度学习带来的海啸。

八位作者,人生各自精彩

当时这篇论文的作者共有 8 位,他们分别来自谷歌和多伦多大学,五年过去了,大部分论文作者都已离开了原机构。

2022 年 4 月 26 日,一家名为「Adept」的公司官宣成立,共同创始人有 9 位,其中就包括 Transformer 论文作者中的两位 Ashish Vaswani 和 Niki Parmar。

Transformer六周年:当年连NeurIPS Oral都没拿到,8位作者已创办数家AI独角兽

Ashish Vaswani 在南加州大学拿到博士学位,师从华人学者蒋伟(David Chiang)和黄亮(Liang Huang),主要研究现代深度学习在语言建模中的早期应用。2016 年,他加入了谷歌大脑并领导了 Transformer 的研究,2021 年离开谷歌。

Niki Parmar 硕士毕业于南加州大学,2016 年加入谷歌。工作期间,她为谷歌搜索和广告研发了一些成功的问答和文本相似度模型。她领导了扩展 Transformer 模型的早期工作,将其扩展到了图像生成、计算机视觉等领域。2021 年,她也离开谷歌。

在离开之后,两人参与创立了 Adept,并分别担任首席科学家(Ashish Vaswani)和首席技术官(Niki Parmar)。Adept 的愿景是创建一个被称为「人工智能队友」的 AI,该 AI 经过训练,可以使用各种不同的软件工具和 API。

2023 年 3 月,Adept 宣布完成 3.5 亿美元的 B 轮融资,公司估值超过 10 亿美元,晋升独角兽。不过,在 Adept 公开融资的时候,Niki Parmar 和 Ashish Vaswani 已经离开了 Adept,并创立了自己的 AI 新公司。不过,这家新公司目前还处于保密阶段,我们无法获取该公司的详细信息。

另一位论文作者 Noam Shazeer 是谷歌最重要的早期员工之一。他在 2000 年底加入谷歌,直到 2021 年最终离职,之后成为了一家初创企业的 CEO,名字叫做「Character.AI」。

Character.AI 创始人除了 Noam Shazeer,还有一位是 Daniel De Freitas,他们都来自谷歌的 LaMDA 团队。此前,他们在谷歌构建了支持对话程序的语言模型 LaMDA。

今年三月,Character.AI 宣布完成 1.5 亿美元融资,估值达到 10 亿美元,是为数不多有潜力与 ChatGPT 所属机构 OpenAI 竞争的初创公司之一,也是罕见的仅用 16 个月时间就成长为独角兽的公司。其应用程序 Character.AI 是一个神经语言模型聊天机器人,可以生成类似人类的文本响应并参与上下文对话。

Character.AI 于 2023 年 5 月 23 日在 Apple App Store 和 Google Play Store 发布,第一周下载量超过 170 万次。2023 年 5 月,该服务增加了每月 9.99 美元的付费订阅,称为 c.ai+,该订阅允许用户优先聊天访问,获得更快的响应时间和早期访问新功能等特权。

Transformer六周年:当年连NeurIPS Oral都没拿到,8位作者已创办数家AI独角兽

Aidan N. Gomez 早在 2019 年就已离开谷歌,之后担任 FOR.ai 研究员,现在是 Cohere 的联合创始人兼 CEO。

Cohere 是一家生成式 AI 初创公司,于 2019 年成立,其核心业务包括提供 NLP 模型,并帮助企业改进人机交互。三位创始人分别为 Ivan Zhang、Nick Frosst 和 Aidan Gomez,其中 Gomez 和 Frosst 是谷歌大脑团队的前成员。2021 年 11 月,Google Cloud 宣布他们将与 Cohere 合作,Google Cloud 将使用其强大的基础设施为 Cohere 平台提供动力,而 Cohere 将使用 Cloud 的 TPU 来开发和部署其产品。

值得注意的是,Cohere 刚刚获得 2.7 亿美元 C 轮融资,成为市值 22 亿美元的独角兽。

Transformer六周年:当年连NeurIPS Oral都没拿到,8位作者已创办数家AI独角兽

Łukasz Kaiser在 2021 年离开谷歌,在谷歌工作了 7 年零 9 个月,现在是 OpenAI 一名研究员。在谷歌担任研究科学家期间,他参与了机器翻译、解析及其他算法和生成任务的 SOTA 神经模型设计,是 TensorFlow 系统、Tensor2Tensor 库的共同作者。

Transformer六周年:当年连NeurIPS Oral都没拿到,8位作者已创办数家AI独角兽

Jakob Uszkoreit 于 2021 年离开谷歌,在谷歌工作时间长达 13 年,之后加入 Inceptive,成为联合创始人。Inceptive 是一家 AI 制药公司,致力于运用深度学习去设计 RNA 药物。

在谷歌工作期间,Jakob Uszkoreit 参与了组建谷歌助理的语言理解团队,早期还曾从事过谷歌翻译的工作。

Transformer六周年:当年连NeurIPS Oral都没拿到,8位作者已创办数家AI独角兽

Illia Polosukhin 于 2017 年离开谷歌,现在是 NEAR.AI(一家区块链底层技术公司)的联合创始人兼 CTO。

Transformer六周年:当年连NeurIPS Oral都没拿到,8位作者已创办数家AI独角兽

唯一还留在谷歌的是 Llion Jones,今年是他在谷歌工作的第 9 年。

Transformer六周年:当年连NeurIPS Oral都没拿到,8位作者已创办数家AI独角兽

如今,距离《 Attention Is All You Need 》论文发表已经过去 6 年了,原创作者们有的选择离开,有的选择继续留在谷歌,不管怎样,Transformer 的影响力还在继续。

以上就是Transformer六周年:当年连NeurIPS Oral都没拿到,8位作者已创办数家AI独角兽的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/521703.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年11月9日 05:55:58
下一篇 2025年11月9日 05:58:13

相关推荐

  • Uniapp 中如何不拉伸不裁剪地展示图片?

    灵活展示图片:如何不拉伸不裁剪 在界面设计中,常常需要以原尺寸展示用户上传的图片。本文将介绍一种在 uniapp 框架中实现该功能的简单方法。 对于不同尺寸的图片,可以采用以下处理方式: 极端宽高比:撑满屏幕宽度或高度,再等比缩放居中。非极端宽高比:居中显示,若能撑满则撑满。 然而,如果需要不拉伸不…

    2025年12月24日
    400
  • 如何让小说网站控制台显示乱码,同时网页内容正常显示?

    如何在不影响用户界面的情况下实现控制台乱码? 当在小说网站上下载小说时,大家可能会遇到一个问题:网站上的文本在网页内正常显示,但是在控制台中却是乱码。如何实现此类操作,从而在不影响用户界面(UI)的情况下保持控制台乱码呢? 答案在于使用自定义字体。网站可以通过在服务器端配置自定义字体,并通过在客户端…

    2025年12月24日
    800
  • 如何在地图上轻松创建气泡信息框?

    地图上气泡信息框的巧妙生成 地图上气泡信息框是一种常用的交互功能,它简便易用,能够为用户提供额外信息。本文将探讨如何借助地图库的功能轻松创建这一功能。 利用地图库的原生功能 大多数地图库,如高德地图,都提供了现成的信息窗体和右键菜单功能。这些功能可以通过以下途径实现: 高德地图 JS API 参考文…

    2025年12月24日
    400
  • 如何使用 scroll-behavior 属性实现元素scrollLeft变化时的平滑动画?

    如何实现元素scrollleft变化时的平滑动画效果? 在许多网页应用中,滚动容器的水平滚动条(scrollleft)需要频繁使用。为了让滚动动作更加自然,你希望给scrollleft的变化添加动画效果。 解决方案:scroll-behavior 属性 要实现scrollleft变化时的平滑动画效果…

    2025年12月24日
    000
  • 如何为滚动元素添加平滑过渡,使滚动条滑动时更自然流畅?

    给滚动元素平滑过渡 如何在滚动条属性(scrollleft)发生改变时为元素添加平滑的过渡效果? 解决方案:scroll-behavior 属性 为滚动容器设置 scroll-behavior 属性可以实现平滑滚动。 html 代码: click the button to slide right!…

    2025年12月24日
    500
  • 如何选择元素个数不固定的指定类名子元素?

    灵活选择元素个数不固定的指定类名子元素 在网页布局中,有时需要选择特定类名的子元素,但这些元素的数量并不固定。例如,下面这段 html 代码中,activebar 和 item 元素的数量均不固定: *n *n 如果需要选择第一个 item元素,可以使用 css 选择器 :nth-child()。该…

    2025年12月24日
    200
  • 使用 SVG 如何实现自定义宽度、间距和半径的虚线边框?

    使用 svg 实现自定义虚线边框 如何实现一个具有自定义宽度、间距和半径的虚线边框是一个常见的前端开发问题。传统的解决方案通常涉及使用 border-image 引入切片图片,但是这种方法存在引入外部资源、性能低下的缺点。 为了避免上述问题,可以使用 svg(可缩放矢量图形)来创建纯代码实现。一种方…

    2025年12月24日
    100
  • 如何让“元素跟随文本高度,而不是撑高父容器?

    如何让 元素跟随文本高度,而不是撑高父容器 在页面布局中,经常遇到父容器高度被子元素撑开的问题。在图例所示的案例中,父容器被较高的图片撑开,而文本的高度没有被考虑。本问答将提供纯css解决方案,让图片跟随文本高度,确保父容器的高度不会被图片影响。 解决方法 为了解决这个问题,需要将图片从文档流中脱离…

    2025年12月24日
    000
  • 为什么 CSS mask 属性未请求指定图片?

    解决 css mask 属性未请求图片的问题 在使用 css mask 属性时,指定了图片地址,但网络面板显示未请求获取该图片,这可能是由于浏览器兼容性问题造成的。 问题 如下代码所示: 立即学习“前端免费学习笔记(深入)”; icon [data-icon=”cloud”] { –icon-cl…

    2025年12月24日
    200
  • 如何利用 CSS 选中激活标签并影响相邻元素的样式?

    如何利用 css 选中激活标签并影响相邻元素? 为了实现激活标签影响相邻元素的样式需求,可以通过 :has 选择器来实现。以下是如何具体操作: 对于激活标签相邻后的元素,可以在 css 中使用以下代码进行设置: li:has(+li.active) { border-radius: 0 0 10px…

    2025年12月24日
    100
  • 如何模拟Windows 10 设置界面中的鼠标悬浮放大效果?

    win10设置界面的鼠标移动显示周边的样式(探照灯效果)的实现方式 在windows设置界面的鼠标悬浮效果中,光标周围会显示一个放大区域。在前端开发中,可以通过多种方式实现类似的效果。 使用css 使用css的transform和box-shadow属性。通过将transform: scale(1.…

    2025年12月24日
    200
  • 为什么我的 Safari 自定义样式表在百度页面上失效了?

    为什么在 Safari 中自定义样式表未能正常工作? 在 Safari 的偏好设置中设置自定义样式表后,您对其进行测试却发现效果不同。在您自己的网页中,样式有效,而在百度页面中却失效。 造成这种情况的原因是,第一个访问的项目使用了文件协议,可以访问本地目录中的图片文件。而第二个访问的百度使用了 ht…

    2025年12月24日
    000
  • 如何用前端实现 Windows 10 设置界面的鼠标移动探照灯效果?

    如何在前端实现 Windows 10 设置界面中的鼠标移动探照灯效果 想要在前端开发中实现 Windows 10 设置界面中类似的鼠标移动探照灯效果,可以通过以下途径: CSS 解决方案 DEMO 1: Windows 10 网格悬停效果:https://codepen.io/tr4553r7/pe…

    2025年12月24日
    000
  • 使用CSS mask属性指定图片URL时,为什么浏览器无法加载图片?

    css mask属性未能加载图片的解决方法 使用css mask属性指定图片url时,如示例中所示: mask: url(“https://api.iconify.design/mdi:apple-icloud.svg”) center / contain no-repeat; 但是,在网络面板中却…

    2025年12月24日
    000
  • 如何用CSS Paint API为网页元素添加时尚的斑马线边框?

    为元素添加时尚的斑马线边框 在网页设计中,有时我们需要添加时尚的边框来提升元素的视觉效果。其中,斑马线边框是一种既醒目又别致的设计元素。 实现斜向斑马线边框 要实现斜向斑马线间隔圆环,我们可以使用css paint api。该api提供了强大的功能,可以让我们在元素上绘制复杂的图形。 立即学习“前端…

    2025年12月24日
    000
  • 图片如何不撑高父容器?

    如何让图片不撑高父容器? 当父容器包含不同高度的子元素时,父容器的高度通常会被最高元素撑开。如果你希望父容器的高度由文本内容撑开,避免图片对其产生影响,可以通过以下 css 解决方法: 绝对定位元素: .child-image { position: absolute; top: 0; left: …

    2025年12月24日
    000
  • CSS 帮助

    我正在尝试将文本附加到棕色框的左侧。我不能。我不知道代码有什么问题。请帮助我。 css .hero { position: relative; bottom: 80px; display: flex; justify-content: left; align-items: start; color:…

    2025年12月24日 好文分享
    200
  • 前端代码辅助工具:如何选择最可靠的AI工具?

    前端代码辅助工具:可靠性探讨 对于前端工程师来说,在HTML、CSS和JavaScript开发中借助AI工具是司空见惯的事情。然而,并非所有工具都能提供同等的可靠性。 个性化需求 关于哪个AI工具最可靠,这个问题没有一刀切的答案。每个人的使用习惯和项目需求各不相同。以下是一些影响选择的重要因素: 立…

    2025年12月24日
    000
  • 如何用 CSS Paint API 实现倾斜的斑马线间隔圆环?

    实现斑马线边框样式:探究 css paint api 本文将探究如何使用 css paint api 实现倾斜的斑马线间隔圆环。 问题: 给定一个有多个圆圈组成的斑马线图案,如何使用 css 实现倾斜的斑马线间隔圆环? 答案: 立即学习“前端免费学习笔记(深入)”; 使用 css paint api…

    2025年12月24日
    000
  • 如何使用CSS Paint API实现倾斜斑马线间隔圆环边框?

    css实现斑马线边框样式 想定制一个带有倾斜斑马线间隔圆环的边框?现在使用css paint api,定制任何样式都轻而易举。 css paint api 这是一个新的css特性,允许开发人员创建自定义形状和图案,其中包括斑马线样式。 立即学习“前端免费学习笔记(深入)”; 实现倾斜斑马线间隔圆环 …

    2025年12月24日
    100

发表回复

登录后才能评论
关注微信