仅需200M参数，零样本性能超越有监督！谷歌发布时序预测基础模型TimesFM

程序猿 • 2025年11月7日 11:21:43 • 用户投稿 • 阅读 0

时间序列预测在各个领域中起着重要作用，例如零售、金融、制造业、医疗保健和自然科学等。在零售行业中，通过提高需求预测的准确性，可以有效降低库存成本并增加收入。这意味着企业能够更好地满足客户需求，减少库存积压和损失，同时提高销售额和利润。因此，时间序列预测在零售领域中具有重要的价值，能够为企业带来实质

深度学习（DL）模型在“多变量时间序列预测”任务中占据主导地位，在各种比赛和实际应用中展现出色的性能。

与此同时，自然语言处理（NLP）任务中的大型基础语言模型也取得了显著进展，有效提升了翻译、检索增强生成、代码补全等任务的性能。

NLP模型的训练依赖于海量文本数据，其中数据来源多种多样，包括爬虫、开源代码等，训练后的模型能够识别语言中的模式，并具备零样本学习的能力：比如说把大模型用在检索任务时，模型可以回答有关当前事件的问题并对其进行总结。

尽管基于深度学习的预测器在许多方面优于传统方法，包括降低训练和推理成本，但仍然存在一些挑战需要克服：

许多深度学习模型要经过长时间的训练和验证才能在新的时间序列上进行测试。相比之下，时间序列预测的基础模型具备”开箱即用预测”功能，无需额外训练即可应用于未知时间序列数据。这种特性让用户能够专注于改进零售需求规划等实际下游任务的预测工作。

Google Research的研究人员最近提出了一个名为TimesFM的时序预测基础模型，在1000亿个真实世界时间点上进行了预训练。与目前最新的大型语言模型（LLMs）相比，TimesFM的规模要小得多，仅包含200M参数。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

论文链接：https://arxiv.org/pdf/2310.10688.pdf

实验结果表明，尽管规模较小，TimesFM在各个领域和时间尺度上的不同未经训练的数据集中展现出了令人惊讶的「零样本性能」，接近于明确经过训练、最先进的监督方法在这些数据集上的表现。

研究人员计划今年晚些时候在Google Cloud Vertex AI中为外部客户提供TimesFM模型。

基础模型TimesFM

LLMs通常以仅解码器（decoder-only）的方式进行训练，包括三个步骤：

1. 文本被分解为称为token的子词（subwords）

2. tokens被馈送到堆叠的causal Transformer层，并生成与每个输入token对应的输出，需要注意的是，该层无法处理没输入的token，即future tokens

3. 对应于第i个token的输出总结了来自先前token的所有信息，并预测第（i+1）个token

在推理期间，LLM每次生成一个token的输出。

例如，当输入提示「法国的首都是哪里？」（What is the capital of France？）时，模型可能会生成token为「The」，然后以该提示为条件生成下一个token「首都」（captial）等，直到模型生成完整的答案：「法国的首都是巴黎」（The capital of France is Paris）。

时间序列预测的基础模型应该适应可变的上下文（模型观察到的内容）和范围（查询模型预测的内容）长度，同时具有足够的能力来编码来自大型预训练数据集的所有模式（patterns）。

与LLMs类似，研究人员使用堆叠的Transformer层（自注意力和前馈层）作为TimesFM模型的主要构建块；在时间序列预测的背景下，把一个patch（一组连续的时间点）作为一个token，思路来源于最近的long-horizon forecasting工作：具体任务是预测在堆叠的Transformer层的末尾处，针对给定第i个输出来预测第（i+1）个时间点patch

但TimesFM与语言模型有几个关键的区别：

1. 模型需要一个具有残差连接的多层感知器块，将时间序列的patch转换为token，其可以与位置编码（PE）一起沿着输入到Transformer层。为此，我们使用类似于我们以前在长期预测中的工作的残差块。

2. 来自堆叠的Transformer的输出token可以用于预测比输入patch长度更长的后续时间点的长度，即，输出patch长度可以大于输入patch长度。

序列猴子开放平台

具有长序列、多模态、单模型、大数据等特点的超大规模语言模型

0 查看详情

假设，长度为512个时间点的时间序列被用于训练具有「输入patch长度32」和「输出patch长度128」的TimesFM模型时：

在训练期间，模型同时被训练为使用前32个时间点来预测接下来的128个时间点，使用前64个时间点来预测时间点65至192，使用前96个时间点来预测时间点97至224等等。

假设输入数据为长度为256的时间序列，并且其任务是预测未来的接下来的256个时间点，模型首先生成时间点257至384的未来预测，然后以初始256长度输入加上生成的输出为条件来生成时间点385至512。

另一方面，如果在模型中，输出patch长度等于输入patch长度32，那么对于相同的任务，模型经历八次生成步骤而非2次，增加了错误累积的风险，因此在实验结果中可以看到，更长的输出patch长度会带来更好的长期预测性能。

预训练数据

就像LLMs可以通过更多token变得更好一样，TimesFM需要大量合法的时间序列数据来学习和改进；研究人员花了大量的时间来创建和评估训练数据集，发现两个比较好的方法：

合成数据有助于基础（Synthetic data helps with the basics）

可以使用统计模型或物理模拟生成有意义的合成时间序列数据，基本的时间模式可以引导模型学习时间序列预测的语法。

真实世界的数据增加了真实世界的感觉（Real-world data adds real-world flavor）

研究人员梳理了可用的公共时间序列数据集，并有选择地将1000亿个时间点的大型语料库放在一起。

在数据集中，有Google趋势和维基百科的页面浏览量，跟踪用户感兴趣的内容，并且很好地反映了许多其他真实世界时间序列的趋势和模式，有助于TimesFM理解更大的图景，可以针对「训练期间没见过的、特定领域上下文」提升泛化性能。

零样本评估结果

研究人员使用常用的时间序列基准，针对训练期间未见过的数据对TimesFM进行零样本评估，可以观察到TimesFM的性能优于大多数统计方法，如ARIMA，ETS，并且可以匹配或优于强大的DL模型，如DeepAR，PatchTST，这些模型已经在目标时间序列上进行了明确的训练。

研究人员使用Monash Forecasting Archive来评估TimesFM的开箱即用性能，该数据集包含来自各个领域的数万个时间序列，如交通、天气和需求预测，覆盖频率从几分钟到每年的数据。

根据现有文献，研究人员检查了适当缩放的平均绝对误差（MAE），以便在数据集上取平均值。

可以看到，zero-shot（ZS）TimesFM比大多数监督方法都要好，包括最近的深度学习模型。还对比了TimesFM和GPT-3.5使用llmtime（ZS）提出的特定提示技术进行预测，结果证明了TimesFM的性能优于llmtime（ZS）

在Monash数据集上，TimesFM（ZS）与其他有监督和零样本方法的比例MAE（越低越好）

大多数Monash数据集都是短期或中期的，也就是说预测长度不会太长；研究人员还测试了TimesFM对常用基准长期预测对最先进的基线PatchTST（和其他长期预测基线）。

研究人员绘制了ETT数据集上的MAE，用于预测未来96和192个时间点的任务，在每个数据集的最后一个测试窗口上计算指标。

TimesFM（ZS）的最后一个窗口MAE（越低越好）相对于ETT数据集上的llmtime（ZS）和长期预测基线

可以看到，TimesFM不仅超过了llmtime（ZS）的性能，而且与在相应数据集上显式训练的有监督PatchTST模型的性能相匹配。

结论

研究人员使用1000亿真实的世界时间点的大型预训练语料库训练了一个仅用于解码器的基础模型，其中大部分是来自Google趋势的搜索兴趣时间序列数据和维基百科的页面浏览量。

结果表明，即使是一个相对较小的200 M参数预训练模型，使用TimesFM架构，在各种公共基准测试（不同的领域和粒度）中都展现出相当好的零样本性能。

以上就是仅需200M参数，零样本性能超越有监督！谷歌发布时序预测基础模型TimesFM的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/425430.html

模型训练

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

VSCode的代码块选择功能怎么用？

上一篇 2025年11月7日 11:21:38

如何在Laravel中实现数据分块

下一篇 2025年11月7日 11:21:45

html的盒模型详解

这次给大家带来html的盒模型详解，使用html盒模型的注意事项有哪些，下面就是实战案例，一起来看一下。 1.1. 盒的内容区的尺寸— content width和content height —取决于几个因素： –生成该盒的元素是否设置了’width’或&#82…

程序猿
用户投稿 2025年12月21日
0000
用户投稿

vivo Pad3 Pro 正式登场跑分离谱还有蓝心大模型

中关村在线消息：vivo 旗舰新品发布会正在进行中，本场发布会第一个登场的产品是 vivo pad3 pro。新款产品上来就放出王炸，搭载天玑 9300 处理器，跑分超过 210 万，也是行业首个突破 200 万的平板电脑。在游戏测试中，在 90 帧 +hdr 高清画质下，帧率稳定一条直线，性能十分…

程序猿
2025年12月5日
0000
谷歌揭秘大模型不会数 r 原因：嵌入维度是关键，不止分词器问题

大模型做奥赛题游刃有余，简单的数数却屡屡翻车的原因找到了。谷歌的一项新研究，发现大模型不会数数的原因，并不是简单的 tokenizer 所致，而是没有足够的空间来存储用于计数的向量。数出一段话中某个单词出现的次数，这样简单的任务可以难倒许多大模型，GPT-4o、Claude 3.5 也无法幸免。…

程序猿
2025年12月5日 • 用户投稿
1000
显著超越 SFT，o1/DeepSeek-R1 背后秘诀也能用于多模态大模型了

上海交大、上海ai lab和港中文大学的研究人员推出visual-rft（视觉强化微调）开源项目，该项目仅需少量数据即可显著提升视觉语言大模型（lvlm）性能。visual-rft巧妙地将deepseek-r1的基于规则奖励的强化学习方法与openai的强化微调（rft）范式相结合，成功地将这一方法…

程序猿
2025年12月3日 • 用户投稿
0000
AI 越聪明越不听话！新研究：最强推理模型指令遵循率仅 50%

如果面前有两个 ai 助手：一个很聪明但经常不守规矩，另一个很听话但不太聪明，你会怎么选？最近，上海人工智能实验室与香港中文大学的研究团队发布了论文《Scaling Reasoning, Losing Control: Evaluating Instruction Following in Lar…

程序猿
2025年12月3日 • 用户投稿
2000
《梦幻西游》全新赛事祥瑞即将来袭，剪影图曝光

《梦幻西游》电脑版全新赛事祥瑞曝光，11月将会和广大玩家正式亮相！你们猜猜这只祥瑞是以什么为原型做的设计，以及和梦幻接下来的什么活动有关无涯·问知无涯·问知，是一款基于星环大模型底座，结合个人知识库、企业知识库、法律法规、财经等多种知识源的企业级垂直领域问答产品 153 查看详情以上就是《梦幻…

程序猿
2025年12月2日 • 用户投稿
0000
用户投稿

《梦幻西游》镇淮楼再掏出魔王九黎力普陀三攻，激战曲阜服战队！

《梦幻西游》镇淮楼再掏出魔王九黎力普陀三攻，激战曲阜服战队！无涯·问知无涯·问知，是一款基于星环大模型底座，结合个人知识库、企业知识库、法律法规、财经等多种知识源的企业级垂直领域问答产品 153 查看详情以上就是《梦幻西游》镇淮楼再掏出魔王九黎力普陀三攻，激战曲阜服战队！的详细内容，更多请关注…

程序猿
2025年12月2日
0000
探究词表选择对语言模型训练的影响：一项具有突破性的研究

语言模型受不同词表的影响有哪些？如何平衡这些影响？在最近的一项实验中，研究者对16个语言模型进行了不同的语料预训练和微调。这次实验使用了NanoGPT，一种小规模的架构（基于GPT-2 SMALL），共训练了12个模型。NanoGPT的网络架构配置为：12个注意力头、12层transformer，…

程序猿
2025年12月2日 • 用户投稿
1000
ICCV’23论文颁奖“神仙打架”！Meta分割一切和ControlNet共同入选，还有一篇让评委们很惊讶

在法国巴黎举行的计算机视觉顶峰大会iccv 2023刚刚结束！今年的最佳论文奖，简直是“神仙打架”。例如，获得最佳论文奖的两篇论文中，就包括颠覆文生图AI领域的著作——ControlNet。自从开源以来，ControlNet在GitHub上已经获得了24k个星。无论是对于扩散模型还是整个计算机…

程序猿
2025年12月2日 • 用户投稿
0000
谷歌：非等频采样时间序列表示学习新方法

在时间序列问题中，有一种类型的时间序列不是等频采样的，即每组相邻两个观测值的时间间隔不一样。时间序列表示学习在等频采样的时间序列中已经进行了比较多的研究，但是在这种不规则采样的时间序列中研究比较少，并且这类时间序列的建模方式和等频采样中的建模方式有比较大的差别今天介绍的这篇文章，在不规则采样的时间…

程序猿
2025年12月2日 • 用户投稿
0000
最多400万token上下文、推理提速22倍，StreamingLLM火了，已获GitHub 2.5K星

如果你曾经与任何一款对话式 AI 机器人交流过，你一定会记得一些令人感到非常沮丧的时刻。比如，你在前一天的对话中提到的重要事项，被 AI 完全忘记了…… 这是因为当前的多数 LLM 只能记住有限的上下文，就像为考试而临时抱佛脚的学生，稍加盘问就会「露出马脚」。如果AI助手能够在聊天中根据上下文参考…

程序猿
2025年12月2日 • 用户投稿
1000
令人惊讶的时间冗余方法：降低视觉Transformer计算成本的新途径

Transformer最初是为自然语言处理任务而设计的，但现在已经被广泛应用于视觉任务。视觉Transformer在多个视觉识别任务中展现出了出色的准确性，并在图像分类、视频分类和目标检测等任务中取得了当前最佳的表现视觉 Transformer 的一大缺点是计算成本高。典型的卷积网络（CNN）处理…

程序猿
2025年12月2日 • 用户投稿
8000
努比亚推出自研星云大模型：编程性能国内排名第一

7月23日消息，今天下午，努比亚举行努比亚ai+双旗舰新品发布会，推出自研的星云大模型。近年来，ai技术正值井喷式的爆发，努比亚定义了“al+”的产品战略和理念，联合ai大模型研发团队潜心钻研，重磅推出自研的星云大模型，提供了自然语言大模型、视觉大模型等一系列高度专业的ai大模型，模型能力行业遥遥领…

程序猿
2025年12月2日 • 用户投稿
0000
思维链如何释放语言模型的隐藏能力？最新理论研究揭示其背后奥秘

大模型涌现中最神秘的现象之一是思维链提示（cot），尤其在解决数学推理和决策问题方面展现出惊人的效果。cot到底有多重要呢？它背后成功的机制是什么？本文中，北大的几位研究者证明了cot在实现大语言模型（llm）推理中是不可或缺的，并从理论和实验角度揭示了cot如何释放llm的巨大潜力。最近的研究发…

程序猿
2025年12月2日 • 用户投稿
1000
BAT方法：AAAI 2024首个多模态目标追踪通用双向适配器

目标跟踪是计算机视觉的基础任务之一，近年来，单模态（RGB）目标跟踪取得了重大进展。然而，由于单一成像传感器的限制，我们需要引入多模态图像（如RGB、红外等）来弥补这一缺陷，以实现在复杂环境下的全天候目标跟踪。这种多模态图像的应用可以提供更全面的信息，增强目标检测和跟踪的准确性和鲁棒性。多模态目标跟…

程序猿
2025年12月1日 • 用户投稿
1000
想训练类Sora模型吗？尤洋团队OpenDiT实现80%加速

Sora 在 2024 年初的惊艳表现成为了新的标杆，激励着所有研究文生视频的人士争相追赶。每个研究者都怀着复现 Sora 成果的渴望，争分夺秒地努力着。根据 OpenAI 披露的技术报告，Sora 的一个重要创新点是将视觉数据转换为 patch 的统一表示形式，并通过 Transformer 和…

程序猿
2025年12月1日 • 用户投稿
0000
微软6页论文爆火：三进制LLM，真香！

这就是由微软和中国中科院大学在最新一项研究中所提出的结论—— 所有的LLM，都将是1.58 bit的。 ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 具体而言，这项研究提出的方法叫做BitNet b1.58，可以说是从大语言模型“根儿”上的…

程序猿
2025年12月1日 • 用户投稿
0000
几行代码稳定UNet ! 中山大学等提出ScaleLong扩散模型：从质疑Scaling到成为Scaling

在标准的UNet结构中，long skip connection上的scaling系数 ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 一般为1。然而，在一些著名的扩散模型工作中，比如Imagen， Score-based generati…

程序猿
2025年12月1日 • 用户投稿
0000
揭秘扩散模型背后的“硬核骨架”：一文读懂Backbone在生成艺术与智能决策中的关键作用

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 引子：揭开扩散模型及其“脊梁骨”的神秘面纱如今，AI创作的精美画作、音视频内容层出不穷，其中有一项技术犹如魔法般从无到有地创造出惊艳作品，那就是扩散模型。而在其运作机制的核心深处，有一个至关重…

程序猿
2025年12月1日 • 用户投稿
0000
LLaMa 3或将推迟到7月发布，剑指GPT-4，从Gemini吸取教训

过去的图像生成模型经常因为主要呈现白人形象而受到批评，而谷歌的 Gemini 模型则因为极端的矫枉过正而陷入困境。它的生成图像结果变得过分谨慎，与历史事实出现显著偏差，令用户感到惊讶。谷歌声称，该模型的谨慎程度超出了开发者的预期。这种谨慎不仅体现在生成的图像中，还表现在通常将一些提示视为敏感提示，进…

程序猿
2025年12月1日 • 用户投稿
0000