用火山引擎,大模型将数据飞轮「点燃」

在大模型对千行百业的改造进程中,火山引擎率先交出了一份数据行业的个性化答案。
9 月 19 日,在上海举办的 “数据飞轮・V-Tech 数据驱动科技峰会” 上,火山引擎宣布数智平台 VeDI 应用大模型(Large Language Models)能力。
用火山引擎,大模型将数据飞轮「点燃」
产品升级后,能够实现用自然语言 “找数”、辅助数仓模型研发、优化代码,同时还能完成可视化图表的生成,对话时实现归因分析等功能。即使没有代码能力的普通运营人员也能快速找数和分析。目前,VeDI 相关数据产品已启动邀测。
升级后的数据产品大大拉低了使用数据的门槛。以往,一个普通运营希望找数,往往需要求助研发人员,由研发人员编写代码帮助取数,分析一个数据需要结合众多专业知识。而现在,借助升级后的数据产品,运营人员可以随时用自然语言输入自己的需求,实时拿到自己想要的数据。
这将进一步激发数据的价值。在企业内部,更低的使用门槛能够数据消费链条上的更多人能够开始接触数据、使用数据,以往被现实门槛压抑的数据需求将会被满足,业务基于数据的洞察将会更加及时、决策将更加科学、更多基于数据的业务想象将被释放。
对于正在数字化进程中的企业来说,数据价值将在更高频率的流转中被释放,数据飞轮将被进一步加速。
大模型融入数据全链路,进一步降低数据生产、使用门槛
相比于小模型,大模型拥有强大的泛化推理能力、外部工具调取能力以及代码生成能力。这些能力对于数据产品而言,有着重大的影响。
更强的泛化推理能力意味着更高的智能性,但同时,也需要结合很多工具的调各项能力,比如数学及分析能力等作为补充。而大模型时代开启的自然语言交互模式,也为数据产品的使用方式带来了新的想象空间。
今年 3 月开始,字节内部开始将大模型与数据产品进行结合,在快速迭代的小范围测试中,很快罗旋团队发现,在数据产品的主要场景中,大模型带来的提升和改变都是明显的。随后,团队开始在数据产品的场景中大范围尝试,不断量化场景的优先级,并推动大模型在产品中落地。
在大模型对数据行业的改造过程中,场景的选择是最关键的步骤之一,一个合适的使用场景不仅需要在目前的技术或者可预期的技术上成立,还需要保证加持大模型后用户或业务方能够有更好的使用体验,同时带来更多的数据消费价值,能够进一步带动数据生产。
罗旋分享称,比如,如果在一些场景中原有解决方案整体只需要花费 1-2 秒,使用了大模型之后,由于大模型延迟问题,用自然语言可能要到 5 秒以上,那这个场景就不能满足业务对于时效性的体验需求,就是不成立的。
“但是,比如在短代码生成环节,加入自然语言后,场景效率提升便十分明显。未来,随着大模型的性能不断提升,在数据全链路的各个环节,大模型能带来的智能化改变将更值得期待。”
在此次的 “数据飞轮・V-Tech 数据驱动科技峰会” 上,火山引擎所宣布的关于数智平台 VeDI 的产品升级主要包括了 DataLeap 以及 DataWind 两个部分。其中,DataLeap 中的 “找数助手” 能够支持以问答方式进行找数,“开发助手” 能够支持用自然语言生成、优化 SQL 代码;DataWind – 分析助手则能够支持自然语言完成数据可视化查询与分析。覆盖了找数、取数以及分析全链路,为数据生产与消费全流程降低了技术门槛。
DataLeap – 找数助手
“找数” 通常是数据消费全链条的第一步,找到正确的数据资产,才能实现数据的消费。但是,在传统流程中的 “找数” 并不是一个简单的工作,需要强依赖业务专业知识的输入,通常人们只能通过关键词的检索,再进行人为筛选或者寻求专业数据开发人员才能确认。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

用火山引擎,大模型将数据飞轮「点燃」

                             使用 DataLeap – 找数助手 “找数”
“找数助手” 功能,通过与大语言模型(LLM)结合,大大降低了 “找数” 的门槛。利用 “找数助手”,没有代码能力的人员也能够通过自然语言进行 “拟人化” 查询,比如一位电商运营可以直接提问:“最近 7 天好物直播间的经营状况,要用哪些表?”。DataLeap – 找数助手会根据业务的知识库,推荐与经营状况相关的表,并解释每张表对应的数据维度。
目前,“找数助手” 能够实现包括 Hive 表、数据集、仪表盘、数据指标、维度等多种数据类型及相关业务知识的问答式检索,实现拟人化查询。
另外,除了 “找数” 变得更加简单,结合了大模型能力的 “找数助手” 还能让 “找数” 的准确率进一步提高。过去传统技术方案下,数据资产检索依赖于数据结构化管理,非结构化的业务数据则可能关联缺失,用关键词进行检索时,产生的链路割裂问题,可能会大大降低基于业务场景的数据查找和消费效率。此外,检索提供的是基于关键词的候选答案集合,需要人为再次筛选确认,不是直接的答案,导致用户很难有良好体验。
而现在,在与用户对话式的过程中,大语言模型 (LLM) 可以理解用户真实意图,让搜索过程更聚焦,节约了人为判断的成本,“找数” 本身变得更快,同时,伴随模型语义理解分析能力的逐步提升,对话式检索相比单纯地用关键词检索的方式,其全链路的检索效率也更高。
DataLeap – 开发助手
在数据生产加工环节,“开发助手” 能够支持使用自然语言,自动生成 SQL 代码;针对已有的代码可以自动实现 Bug 修复,代码优化、解释与注释等,此外还可以通过对话方式实现文档搜索、函数使用、代码示例等 SQL 使用类的问题咨询。

用火山引擎,大模型将数据飞轮「点燃」

                              自动开发 SQL 代码
开发助手底层采用大语言模型 (LLM),经过海量的代码和语料训练,可以根据用户的自然语言输入,自动关联包括表 Schema 在内的元数据信息,生成高质量的数据加工代码,并具备代码的理解、改写以及问答能力。

用火山引擎,大模型将数据飞轮「点燃」

                              自动修复已有代码
开发助手打破了语言障碍,极大程度降低了数据开发的门槛。“原来(加工)数据这件事情你可能要会一门编程语言,比如 SQL 或者 Python,这是一个相对强的技能要求。但是,现在你可以不再需要编程语言,可以使用自然语言。那么,这意味着做这件事的人的要求,也进一步降低。”
对于有数据消费诉求的分析师和运营人员,不懂 SQL 也可以做一些基础 ETL。运营人员可以让 DataLeap 自动生成对应经营状况的数据需求代码,比如分城市的订单销售,或分时段的直播间流量等。运营人员还能追问代码的含义,比如 “这张表在运行期间,有什么优化方案吗?”,也可以对话:“帮我检查、修复这串代码”。还能够一键解析生成的代码,调用 SQL 工具做表的检查,点击确认 AI 自动修复,进一步优化数据资产。
更重要的是,对于专业研发人员来说,DataLeap – 开发助手可以帮助他们做一些基础性的工作,处理来自数据分析师、依赖数据的业务运营人员的一些繁杂但基础的需求,工程师只需要在最后校正和核对所生成代码的准确性。于是,研发人员能够将精力放在更有创造力的工作上,更聚焦复杂场景的需求,利用开发助手优化代码,提高研发生产效率与代码质量。
DataWind – 分析助手
在实现找数和取数之后,来到了数据分析环节。结合了大模型能力的 DataWind – 分析助手,能够帮助非分析岗位的人员,通过自然语言对话,可完成数据可视化查询与分析等一系列业务探索,降低此环节的门槛。
首先是 “数据集” 的创建。有了数据资产,运营人员通过 DataWind 拖拉拽方式做数据集的创建,然后使用自然语言的方式去定义不同字段的逻辑,比如直接查 “大咖直播时段” 的数据。

用火山引擎,大模型将数据飞轮「点燃」

火山方舟 火山方舟

火山引擎一站式大模型服务平台,已接入满血版DeepSeek

火山方舟 99 查看详情 火山方舟

                              字段生成
查好后,运营人员就能可视化分析探索。过去 BI 工具,普遍采用拖拉拽的操作方式,虽然在仪表盘制作上已经降低了门槛,但在分析洞察领域,依旧需要大量专业知识的输入,才能更好地理解数据,这是一道 “门槛”。

用火山引擎,大模型将数据飞轮「点燃」

                               可视化探索
但通过大模型更强泛化推理能力的加持,DataWind 已经能够进行基础的假设和验证,提出分析思路。DataWind 提供的 AI 自动分析功能,能够支持其根据图表进一步探索背后的原因。比如说在生成的 “直播间分时段流量图”、“直播间销售额地区 Top” 等可视化图表中,AI 能自动分析,运营人员只需基于分析结果,通过对话形式进一步归因。
同时,DataWind 还联通飞书等办公协同工具,使用者通过 IM 消息订阅、自然对话,进行更多延展分析,实现随时随地的灵活分析,满足从数据集、可视化洞察、消息订阅等全链路上的自助智能,联通办公集成,让数据分析无缝融入日常。

用火山引擎,大模型将数据飞轮「点燃」

                               协同 IM 消息订阅进行延展分析
分析助手将分析洞察的门槛进一步降低,从看 “数据图” 到通过自然语言对话直接了解结果,数据分析思考周期大幅缩短,解决过去分析洞察上需要大量专业知识的痛点,缩短数据分析周期。
现阶段 DataWind – 分析助手的应用场景已经十分丰富,除了在核心的分析场景可以实现对话式探索之外,分析助手还将能力延展到了表达式生成等过去需要更多技术门槛的场景中。
大模型加速数据飞轮,帮助企业更好地实现数据驱动
字节跳动拥有深厚的数据驱动基因。自成立以来,字节跳动内部几乎所有场景都会落到 A/B 测试,通过数据反馈驱动业务的策略进行调整,比如抖音视频画质的优化效果好不好、推荐算法策略优化准不准、甚至今日头条的名字,也经过 A/B 测试。
在字节内部,数据消费的范围很广。组织上,从高层到中层,以及一线员工基本实现全员看数,通过数据来评估公司的经营状况、收支状况、业务进展、产品策略。在具体场景上,比如在直播电商中的实时营销中,运营根据实时数据进行对应的营销策略设计和推送 push。
字节通过数据消费实现了决策科学、行动敏捷,带来业务价值提升;也通过频繁的数据消费和业务收益,有的放矢低成本建设高质量的数据资产,更好支撑业务应用。
今年 4 月,火山引擎基于字节跳动十余年数据驱动的实践经验,曾对外发布企业数智化升级新范式 “数据飞轮”,用 “数据飞轮” 来概括企业数据流充分融入业务流后,能够实现数据资产和业务应用提升的飞轮效应。
在整个数字化的大趋势下,千行百业的企业业务都在与数字化更加紧密,数据对于企业而言越来越重要。作为新型生产要素,数据正支撑企业的数智化转型。但是客观上看,虽然不少企业数字化建设较多,却无法较好释放数据价值。
“一家企业可能花费高昂的价格部署了数据产品,但是可能内部真正使用的人却寥寥无几,数据难以流动就很难发挥价值。” 罗旋在数据产品市场观察到,许多正在进行数字化建设的企业,存在着数据建设与管理成本高、数据产品使用门槛高、数据资产价值低的问题。
而从整个数字化进程来看,要达到 “数据驱动”,是一件难而正确的事。以字节为例,罗旋透露称,目前,字节跳动内部 80% 的员工可以直接使用数据产品,可管理、运营的数据资产覆盖 80% 的日常分析场景。从字节经验来看,这意味着,企业内部数据产品的使用率以及可管理运营的数据资产在场景中的覆盖率都需要提升到较高的水平,才能在公司形成良好的 “数据飞轮”。
在这个过程中,大模型加持下的数据产品或许是帮助企业实现目标的重要推动力量。经过大模型能力升级后的数智平台 VeDI 进一步降低了找数、取数以及数据分析等数据生产和消费的全环节。在同样的需求水平下,使用升级后的 VeDI,公司中有能力使用数据产品的人从专业的数据分析师扩张到了所有有数据需求的人,可能是运营、老板、产品经理等等角色,数据消费变得普惠。
“只有降低门槛,把数据用起来了,才知道数据在流转中到底会产生什么样的价值”,对于刚刚迈入数字化进程的公司而言,数据的价值是一座远远没有被开掘的宝藏,更低门槛的数据产品可能是一把开启的钥匙。
在大模型加持下,企业内部的 “数据飞轮” 将加速旋转。公司业务拥有了更强大的引擎,业务人员能够从 “秒出数据” 中快速得到数据反馈,从而对业务进行更快优化,在数据加速流转过程中,更多高质量数据资产的不断沉淀带给业务更多的洞察,最终让业务决策实现更科学、更敏捷。

以上就是用火山引擎,大模型将数据飞轮「点燃」的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/493412.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年11月8日 16:46:43
下一篇 2025年11月8日 16:48:11

相关推荐

  • 制作莫比乌斯环,最少需要多长纸带?50年来的谜题被解开了

    自己动手做过莫比乌斯带吗? Waymark Waymark是一个视频制作工具,帮助企业快速轻松地制作高影响力的广告。 79 查看详情 莫比乌斯带是一种奇特的数学结构。要构造一个这样美丽的单面曲面其实非常简单,即使是小孩子也可以轻松完成。你只需要取一张纸带,扭曲一次,然后将两端粘在一起。然而,这样容易…

    2025年12月1日 科技
    000
  • 数量即力量!腾讯揭秘:Agent数量越多,大语言模型效果越好

    腾讯的研究团队进行了一项关于agent的可拓展性的研究。他们发现,通过简单的采样投票,大型语言模型(llm)的性能随着实例化agent数量的增加而增强。这项研究首次在各种场景中验证了这一现象的普遍性,并与其他复杂方法进行了对比,探讨了这一现象背后的原因,并提出了进一步发挥scaling效应的方法。 …

    2025年12月1日 科技
    000
  • 吞吐量提升5倍,联合设计后端系统和前端语言的LLM接口来了

    大型语言模型 (llm) 被广泛应用于需要多个链式生成调用、高级提示技术、控制流以及与外部环境交互的复杂任务。尽管如此,目前用于编程和执行这些应用程序的高效系统却存在明显的不足之处。 研究人员最近提出了一种新的结构化生成语言(Structured Generation Language),称为SGL…

    2025年12月1日 科技
    000
  • 淘天集团与爱橙科技合作发布开源大型模型训练框架Megatron-LLaMA

    9 月 12 日,淘天集团联合爱橙科技正式对外开源大模型训练框架 ——megatron-llama,旨在让技术开发者们能够更方便的提升大语言模型训练性能,降低训练成本,并且保持和 llama 社区的兼容性。测试显示,在 32 卡训练上,相比 huggingface 上直接获得的代码版本,megatr…

    2025年12月1日 科技
    100
  • 复旦NLP团队发布80页大模型Agent综述,一文纵览AI智能体的现状与未来

    近期,复旦大学自然语言处理团队(FudanNLP)推出 LLM-based Agents 综述论文,全文长达 86 页,共有 600 余篇参考文献!作者们从 AI Agent 的历史出发,全面梳理了基于大型语言模型的智能代理现状,包括:LLM-based Agent 的背景、构成、应用场景、以及备受…

    2025年12月1日 科技
    000
  • 选择GPT-3.5、还是乔丹Llama 2等开源模型?综合比较后答案有了

    通过对 gpt-3.5 和 llama 2 在不同任务上的参数对比,我们可以得知在什么情况下选择 gpt-3.5,什么情况下选择 llama 2 或其他模型。 显然,对 GPT-3.5 进行的扭矩是非常昂贵的。本文通过实验来验证手动扭矩模型是否可以接近 GPT-3.5 的性能,而只是成本 GPT-3…

    2025年12月1日 科技
    100
  • 人工智能将如何增强平台工程和DevEx?

    作者 | heather joslyn 请将以下内容重新编写为中文:星璇 对于许多采用DevOps的公司来说,通过提高开发人员生产力来扩展规模和创造价值是一个巨大的挑战。在本文中,我们讨论了平台工程中最新的人工智能驱动方法。 1、AI驱动的DevOps平台 Digital.ai是一家行业领先的由AI…

    2025年12月1日
    000
  • 4090生成器:与A100平台相比,token生成速度仅低于18%,上交推理引擎赢得热议

    powerinfer 提高了在消费级硬件上运行 ai 的效率 上海交大团队最新推出了超强 CPU/GPU LLM 高速推理引擎 PowerInfer。                                   PowerInfer 和 llama.cpp 都在相同的硬件上运行,并充分利用了…

    2025年12月1日 科技
    100
  • 用扩散模型生成网络参数,LeCun点赞尤洋团队新研究

    如果你有被 sora 生成的视频震撼到,那你就已经见识过扩散模型在视觉生成方面的巨大潜力。当然,扩散模型的潜力并不止步于此,它在许多其它不同领域也有着让人期待的应用前景,更多案例可参阅本站不久前的报道《爆火sora背后的技术,一文综述扩散模型的最新发展方向》。 最近,由新加坡国立大学的尤洋团队、加州…

    2025年12月1日 科技
    000
  • Salesforce与MIT研究者合作开源GPT-4改稿教程,实现更少字数却传递更多信息

    自动摘要技术近年来取得了显著的进步,这主要得益于范式的转变。过去,该技术主要依赖于在标注数据集上进行有监督微调,但现在则采用了大语言模型(llm)进行零样本 prompt,例如gpt-4。通过细致的 prompt 设置,不需要额外的训练,就能实现对摘要长度、主题、风格等方面特征的精细控制 但一个方面…

    2025年11月28日 科技
    000
  • DeepMind:谁说卷积网络不如ViT?

    本文对按比例扩大的 nfnets 进行了评估,并挑战了 convnets 在大规模问题上表现不如 vits 的观点 深度学习的早期成功可归功于卷积神经网络(ConvNets)的发展。近十年来,ConvNets 主导了计算机视觉基准测试。然而近年来,它们越来越多地被 ViTs(Vision Trans…

    2025年11月28日 科技
    000
  • 14秒就能重建视频,还能变换角色,Meta让视频合成提速44倍

    meta的视频合成新框架给我们带来了一些惊喜 就今天的人工智能发展水平来说,文生图、图生视频、图像/视频风格迁移都已经不算什么难事。 生成式 AI 天赋异禀,能够毫不费力地创建或修改内容。尤其是图像编辑,在以十亿规模数据集为基础预训练的文本到图像扩散模型的推动下,经历了重大发展。这股浪潮催生了大量图…

    2025年11月28日 科技
    000
  • 实时文生图速度提升5-10倍,清华LCM/LCM-LoRA爆火,浏览超百万、下载超20万

    生成式模型进入「实时」时代? 使用文生图和图生图已经不再是一件新鲜事了。然而,在使用这些工具的过程中,我们发现它们常常运行缓慢,导致我们需要等待一段时间才能获取生成的结果 但最近,一种名叫「LCM」的模型改变了这种情况,它甚至能做到实时的连续生图。 ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索…

    2025年11月27日 科技
    000
  • 媲美OpenAI事实性基准,这个中文评测集让o1-preview刚刚及格

    ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢…

    2025年11月27日 科技
    300
  • 释放绝佳的编程资源,巨型模型和智能体将引发更强劲的力量

    正如瑞斯福兹魔杖缔造了诸如邓布利多在内的历代非凡魔法师的传奇,具有巨大潜能的传统大型语言模型,在经过代码语料的预训练 / 精调后,掌握了更超出本源的执行力。 具体来说,进阶版的大模型在编写代码、更强推理、自主援引执行接口、自主完善等方面都获得了提升,这将为它作为 AI 智能体、执行下游任务时方方面面…

    2025年11月26日 科技
    000
  • 谷歌提出全新RLHF方法:消除奖励模型,且无需对抗性训练

    效果更稳定,实现更简单。 大型语言模型(LLM)的成功离不开「基于人类反馈的强化学习(RLHF)」。RLHF 可以大致可以分为两个阶段,首先,给定一对偏好和不偏好的行为,训练一个奖励模型,通过分类目标为前者分配更高的分数。然后通过某种强化学习算法优化这个奖励函数。然而,奖励模型的关键要素可能会产生一…

    2025年11月26日 科技
    000
  • Meta无限长文本大模型来了:参数仅7B,已开源

    谷歌之后,Meta 也来卷无限长上下文。 transformers的二次复杂度和弱长度外推限制了它们扩展到长序列的能力,虽然存在线性注意力力和状态空间模型等次二次解决方案,但从以往经验来看,它们在预训练效率和下游任务准确性方面表现不佳。 近日,谷歌提出的Infini-Transformer引入了有效…

    2025年11月26日 科技
    000
  • CVPR 2024 | 借助神经结构光,浙大实现动态三维现象的实时采集重建

    ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢…

    2025年11月26日 科技
    100
  • 人类偏好就是尺!SPPO对齐技术让大语言模型左右互搏、自我博弈

    AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@ji…

    2025年11月26日 科技
    000
  • 字节跳动豆包大模型发布,火山引擎全栈 AI 服务助力企业智能化转型

    ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 火山引擎总裁 谭待 企业要做好大模型落地,面临模型效果、推理成本、落地难度的三大关键挑战:既要有好的基础大模型做支撑,解决复杂难题,也要有低成本的推理服务让大模型被广泛应用,还要更多工具、平台和…

    2025年11月26日 科技
    000

发表回复

登录后才能评论
关注微信