LLM将成历史?开源bGPT或颠覆深度学习范式:直接模拟二进制,开启模拟数字世界新纪元!

微软亚洲研究院推出的最新成果bGPT,这种基于字节的Transformer模型,为我们探索数字世界开辟了新的大门。

与传统基于词表的语言模型不同,bGPT具有独特之处,即其能够直接处理原始二进制数据,不受特定格式或任务的限制。其旨在全面模拟数字世界,为模型的发展打开了新的可能性。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

LLM将成历史?开源bGPT或颠覆深度学习范式:直接模拟二进制,开启模拟数字世界新纪元!

论文:https://www.php.cn/link/ee88b3cea2051be97bcddf2e0d9a28f6

代码:https://www.php.cn/link/359499f804ea7988921bf86c9377fb95

模型:https://www.php.cn/link/4b459ea1a5917be436df5f0bd5b3c4ad

项目主页:https://www.php.cn/link/71af59614c8b42af334933e9261e53be

研究小组在他们的研究论文中展示了bGPT在建模方面的巨大潜力。通过进行字节级处理,bGPT不仅能够生成文本、图像和音频,还能够模拟计算机的行为,包括格式转换算法和CPU状态的建模。这种将所有数据视为字节序列的方法使得bGPT能够将不同类型的数据整合到同一个框架中。

一经发布,bGPT的论文在X(Twitter)上引起了广泛热议,突显了深度学习模式的潜在变革,为模型真正理解和模拟数字世界中的各种活动打开了新可能性。

二进制数据:构成数字世界的基础DNA

二进制数据是数字世界的基石,它贯穿了计算机处理器以及我们日常使用的电子产品的操作系统,是所有数据、设备和软件的核心。因此,基于这一基础,bGPT的目标是通过研究二进制数据序列来理解数字系统的内在逻辑,从而重塑和模拟各种复杂的数字现象。

bGPT通过字节级的处理,不仅能应用于常规的AI生成和理解任务,还能处理更多的非传统应用。例如,它能直接模拟MIDI——一种音乐传输和存储的标准格式,这在之前的研究中由于MIDI的二进制本质而避免了直接建模。

但bGPT天生适合此类任务,能够精确模拟音乐数据的转换算法,将ABC记谱法转换为MIDI格式时,达到极低的错误率(0.0011 BPB)。

在实际应用中,bGPT通常能够准确地完成ABC符号与MIDI文件之间的转换,有时甚至能纠正原始文件中的错误,使音乐转换更加准确。

LLM将成历史?开源bGPT或颠覆深度学习范式:直接模拟二进制,开启模拟数字世界新纪元!

bGPT自动将ABC记谱法转换成MIDI格式(上图)与原MIDI数据(下图)的对比,凸显了关键的差异:虽然原MIDI数据中漏掉了一拍(见下图),导致和弦伴奏断开,但由bGPT转换的结果(见上图)正确填补了这一缺失,确保了和弦伴奏的流畅性。

研究团队还将CPU建模作为硬件行为模拟的代表性任务:该任务要求模型接收低级机器指令序列作为输入,其目标是准确预测每个指令执行后CPU状态如何更新,直至程序停止。

在这个任务中,bGPT展现出超过99.99%的准确率,显示了字节模型在处理原生二进制数据方面的强大能力和可扩展性。

LLM将成历史?开源bGPT或颠覆深度学习范式:直接模拟二进制,开启模拟数字世界新纪元!

在提供了程序和初始cpu状态的情况下,bgpt能够准确地预测cpu执行的完整过程,直到程序终止。在这个示例中,bgpt精确地处理了所有cpu指令。为了便于理解,这里将实际的字节序列转换成了更易读的格式。

Spacely AI Spacely AI

为您的房间提供AI室内设计解决方案,寻找无限的创意

Spacely AI 67 查看详情 Spacely AI

从字节到万物:突破边界,向着统一的数据建模进发

bGPT不仅能处理原生二进制数据,还能将多种数据类型融合进一个统一的模型架构中,视一切数据为字节序列。

这种方法不但简化了数据建模流程,还使得从任何数据源的整合变得轻而易举,且无需为特定数据类型定制模型。

研究团队在论文中举例了传统文本、图像及音频文件,展现了bGPT在统一数据建模方面的能力。他们训练的bGPT模型拥有约1亿参数。

实验结果表明,在与GPT-2(文本模型)、ViT(视觉模型)和AST(音频模型)等同规模模型的比较中,bGPT在不同数据类型上均展现出了可媲美的性能。

bGPT在文本生成方面的表现非常出色。得益于其字节级的文本编码,该模型无需依赖词汇表,从而能支持所有语言。

它的分层Transformer架构,尽管计算开销与GPT-2相近,却能生成长达8KB的文本,大大超出了GPT-2的长度限制。在经过Wikipedia数据进行预训练后,bGPT生成的文本在风格和主题上都与GPT-2不相上下,证明了其在文本生成方面的强大能力。

bGPT在Wikipedia数据集上进行预训练,生成的文本样例质量和主题一致性与GPT-2相当。

bGPT可以通过预测图像字节序列中的下一个字节来生成图像。该模型在ImageNet数据集上进行了预训练,生成的图像分辨率为32×32像素。

虽然在当前规模下,通过字节序列准确捕捉图像的二维空间关系有所困难,导致生成的图像存在伪影和噪点,但纹理和光影效果通常还是比较准确的。

此外,这些生成的图像均能被正常解码为BMP文件。研究团队指出,通过扩大bGPT的规模,类似于OpenAI开发的iGPT在像素序列建模方面的方法,或许可以实现更高质量、更逼真的图像生成。

这些是由在ImageNet数据集上进行预训练的bGPT生成的一组图像。虽然图像的纹理和光影效果通常比较准确,但在这些生成的图像中识别主要物体却有一定难度。

bGPT将音频数据视为字节序列,能生成1秒长、采样率为8000 Hz的音频样本。

该模型在LibriSpeech数据集上完成了预训练,并进一步在Speech Commands v2数据集上进行微调和演示。bGPT生成的音频样本保持了较高的准确度,其中一些样本几乎与真实音频无法区分。以下是展示bGPT在音频生成领域能力的示例集。

通过bGPT探索字节构成的数字世界

传统语言模型,不管它们有多强大,主要专注于处理自然语言文本。bGPT模型通过基于字节的处理机制,打破了这种仅限于文本处理的局限性,开辟了一个全新的数据处理范畴。

这一进步让bGPT有能力无缝地处理包括文本、图像、音频在内的各种数据类型,甚至能处理来自算法和硬件的原生二进制数据,为全面模拟和理解数字世界铺平了道路。

虽然bGPT展现出了引人注目的能力,但其在计算开销方面的局限性,如当前在常规显卡上仅能处理最大8KB的字节序列,对于那些需要生成或处理大量数据的应用来说,构成了明显的限制。未来的工作计划将集中在开发更高效的算法和利用硬件的进步上,旨在提高处理更大规模数据序列的能力。

全球的技术爱好者们已经开始展望bGPT未来的潜力,从网络修剪和自我学习的优化到超大规模网络的自我重构能力,这些讨论指向了一个共同的愿景:bGPT最终可能实现一个统一的模型,能够处理和输出所有类型的字节数据,真正成为数字世界的全面模拟器

LLM将成历史?开源bGPT或颠覆深度学习范式:直接模拟二进制,开启模拟数字世界新纪元!

研究团队已将bGPT的代码和模型开源。这意味着你可以在自己的数据集上直接训练bGPT,无需做出任何模型架构上的调整,便可探索字节模型在数字领域的广阔前景。

以上就是LLM将成历史?开源bGPT或颠覆深度学习范式:直接模拟二进制,开启模拟数字世界新纪元!的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/847852.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年11月27日 16:10:37
下一篇 2025年11月27日 16:10:50

相关推荐

  • 构建模拟:从头开始的实时交易模拟器

    简介 嘿,开发社区!我很高兴分享我的业余项目 Simul8or – 一个实时日间交易模拟器,旨在为用户提供一个无风险的环境来练习交易策略。该项目 100% 构建在 ASP.NET WebForms、C#、JavaScript、CSS 和 SQL Server 技术堆栈上,没有外部库或框架。从头开始构…

    2025年12月24日
    300
  • HTML、CSS 和 JavaScript 项目

    欢迎来到我的 html、css 和 javascript 项目集合!这篇博文全面概述了我创建的各种项目,展示了 web 开发的不同方面。每个项目都可以在自己的存储库中找到,其中包含您需要探索和学习的所有代码。 目录 简介项目概况开始使用贡献作者 介绍 作为一名 web 开发人员,我喜欢从事各种项目,…

    2025年12月24日
    000
  • 浏览 CSS 响应式设计

    前端开发人员的一项主要职责是创建响应式设计布局。这也是他们的挑战之一。 您可能和我一样相信,在使用 html/css 和 javascript 进行项目时“是时候开始构建响应式设计了”,或者您可能会发现很难让您的设计响应式。 无论什么情况,让我们开始学习如何导航 css 响应式设计,sailor。 …

    2025年12月24日
    000
  • 如何克服响应式布局的不足之处

    如何克服响应式布局的不足之处 随着移动设备的普及和互联网的发展,响应式布局成为了现代网页设计中必不可少的一部分。通过响应式设计,网页可以根据用户所使用的设备自动调整布局,使用户在不同的屏幕尺寸下都能获得良好的浏览体验。 然而,尽管响应式布局在提供多屏幕适应性方面做得相当出色,但仍然存在一些不足之处。…

    2025年12月24日
    000
  • 响应式布局优化移动设备适配的策略与实用技巧

    响应式布局在移动设备上的适配策略与最佳实践 随着移动设备的普及和使用频率的增加,响应式布局逐渐成为网页设计的主流趋势。在移动设备上实现良好的用户体验,需要采用适配策略和最佳实践来确保网页能够在不同尺寸的屏幕上自适应地显示。 一、视口设置为了适应不同尺寸的移动设备屏幕,需要正确设置视口。在网页的头部添…

    2025年12月24日
    000
  • 掌握响应式布局网站的关键要点

    了解响应式布局网站的必备知识 随着移动设备的普及和使用率的增加,人们越来越多地使用手机和平板电脑来浏览网页。为了让网站在不同尺寸的屏幕上都能够有良好的显示效果,响应式布局逐渐成为了现代网页设计的一种重要趋势。本文将介绍响应式布局网站的必备知识,帮助读者更好地了解和运用响应式布局。 一、响应式布局的定…

    2025年12月24日
    200
  • 怎么保证html在平板上运行_保障平板运行html的方法【技巧】

    首先需设置视口元标签,,确保页面正确缩放;接着使用媒体查询和弹性布局适配768px至1024px屏幕,如@media (min-width: 768px) and (max-width: 1024px) { .container { width: 90%; margin: 0 auto; } img…

    2025年12月23日
    000
  • studio怎么运行html_studio运行html步骤【指南】

    在Android Studio中运行HTML文件需将其放入assets目录,并通过WebView加载。首先创建assets文件夹并放入HTML文件,然后在布局中添加WebView组件,接着在Activity中启用JavaScript并使用loadUrl加载本地HTML文件,若HTML涉及网络请求还需…

    2025年12月23日
    000
  • 在React Native WebView中保持键盘开启状态的策略

    本文探讨了在react native的webview组件中,当输入框失去焦点时如何避免虚拟键盘自动关闭的问题。核心解决方案在于优化html中的事件处理逻辑,通过使用`onchange`事件而非`oninput`,并直接调用目标输入框的`focus()`方法,确保焦点无缝转移,从而维持键盘的持续显示,…

    2025年12月23日
    000
  • React Native WebView中输入框焦点切换时保持键盘可见的实现

    本文探讨在react native webview中,当输入框失去焦点时键盘自动关闭的问题。通过将输入框的事件从`oninput`改为`onchange`,并结合`document.getelementbyid(‘target’).focus()`方法,可以在输入框之间平滑切…

    2025年12月23日
    000
  • 构建响应式网站:利用CSS Grid与媒体查询优化移动端布局

    本文旨在解决网站在移动设备上显示不佳的问题,特别是当固定尺寸布局和简单的width: 100%无法奏效时。我们将深入探讨如何利用css grid创建灵活的二维布局,并结合媒体查询(media queries)为不同屏幕尺寸定制样式,从而实现真正适应多设备的响应式设计。 响应式设计的挑战与误区 当开发…

    2025年12月23日
    000
  • 构建响应式搜索栏:使用Flexbox与媒体查询优化移动体验

    本文将详细介绍如何利用css flexbox布局和媒体查询技术,构建一个在不同设备上都能良好展示的响应式搜索栏。通过优化布局和调整元素尺寸,确保搜索按钮在移动端不会出现错位或下沉,提升用户体验。 在现代网页设计中,响应式布局是不可或缺的一环,它确保了网站在桌面、平板和手机等不同尺寸屏幕上都能提供一致…

    2025年12月23日
    000
  • 构建响应式搜索栏:Flexbox布局与媒体查询实践

    本教程详细介绍了如何利用CSS的Flexbox布局和媒体查询技术,创建一个在桌面和移动设备上都能优雅显示并保持良好用户体验的响应式搜索栏。通过设置Flexbox实现元素水平排列,并结合媒体查询调整小屏幕下的输入框宽度,有效解决了移动端布局错乱的问题,确保搜索功能在不同尺寸设备上均能正常工作。 在现代…

    2025年12月23日
    000
  • 响应式CSS Grid布局:优化网格项在小屏幕下的堆叠与宽度适配

    本文详细介绍了如何使用css媒体查询(`@media`)来解决css grid布局中网格项在小屏幕下无法自动堆叠或宽度适配的问题。通过动态调整`grid-template-columns`属性和重置特定网格项的定位,确保内容在不同屏幕尺寸下保持良好的可读性和布局。文章包含示例代码、关键注意事项和最佳…

    2025年12月23日 好文分享
    000
  • 解决移动端滚动问题的overflow属性应用指南

    本文旨在解决移动端网页内容溢出时滚动条不显示或内容被导航栏遮挡的问题。通过深入分析`position`属性与滚动机制的交互,并提供具体的react/grommet示例,详细阐述如何利用css的`overflow: auto`或`overflowy: auto`属性,结合`webkitoverflow…

    2025年12月23日 好文分享
    000
  • HTML布局响应式测试怎么进行_HTML响应式布局效果的测试方法

    使用开发者工具模拟设备、在真实设备测试、借助在线工具验证,并检查CSS布局结构,确保页面适配不同屏幕尺寸。 响应式布局是现代网页开发中的关键环节,确保网站在不同设备(如手机、平板、桌面电脑)上都能正常显示。测试HTML响应式布局的效果,需要从多个维度进行验证,以下是常用的测试方法。 使用浏览器开发者…

    2025年12月23日
    000
  • 响应式CSS Grid与Flexbox布局:解决表单输入项不自适应问题

    本文深入探讨了在使用css grid和flexbox构建响应式布局时,表单输入项在小屏幕下无法自适应的问题。通过分析固定高度、flex容器方向等常见误区,提供了基于`min-height`、`flex-direction: row`和`flex`属性的优化方案,旨在帮助开发者构建在不同视口下都能保持…

    2025年12月23日
    100
  • 响应式图片焦点控制:利用CSS媒体查询优化移动端视觉体验

    在移动设备上,图片经常因缩放而导致焦点偏离,影响用户体验。本文将详细介绍如何利用css的`object-fit`和`object-position`属性,结合媒体查询(media queries),精确控制图片在不同屏幕尺寸下的显示区域和焦点位置,从而无需为移动端准备单独图片,实现图片内容的智能适配…

    2025年12月23日
    000
  • html如何居下_HTML元素底部对齐(position:fixed/bottom)实现方法

    最直接的方法是使用CSS的position: fixed配合bottom: 0,使元素固定在视口底部;若需在父容器内对齐,则用position: absolute和bottom: 0,但父容器需有定位属性。 HTML元素要居下,最直接且常用的方法是利用CSS的position: fixed属性配合b…

    2025年12月23日
    000
  • 解决AdSense响应式广告在移动端布局异常:从容器宽度到代码优化

    本文深入探讨AdSense响应式广告在移动设备上出现布局错位,特别是当其父级容器或祖先元素采用`width: auto`或通过JavaScript动态调整宽度时的问题。我们将分析问题根源,并提供三种核心解决方案:使用固定尺寸广告单元、优化父级容器的CSS布局,以及考虑`data-ad-format=…

    2025年12月23日
    000

发表回复

登录后才能评论
关注微信