follow
-
CVPR 2024 | 自动驾驶世界模型四维时空预训练
北京大学与evlo创新团队共同提出面向自动驾驶的四维时空预训练算法driveworld。该方法采用世界模型进行预训练,设计记忆状态空间模型进行四维时空建模,通过预测场景的占据栅格,降低自动驾驶面临的随机不确定性和知识不确定性。该论文已被cvpr 2024接收。 ☞☞☞AI 智能聊天, 问答助手, A…
-
字节跳动2024奖学金计划报名启动!每人10万,助力科研未来!
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 火山写作 字节跳动推出的中英文AI写作、语法纠错、智能润色工具,是一款集成创作、润色、纠错、改写、翻译等能力的中英文 AI 写作助手。 166 查看详情 戳此链接,下载奖学金申请表(建议PC端打…
-
音频驱动人像视频模型:字节Loopy、CyberHost研究成果揭秘
近期,来自字节跳动的视频生成模型 Loopy,一经发布就在 X 上引起了广泛的讨论。Loopy 可以仅仅通过一张图片和一段音频生成逼真的肖像视频,对声音中呼吸,叹气,挑眉等细节都能生成的非常自然,让网友直呼哈利波特的魔法也不过如此。 ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使…
-
蚂蚁自研知识增强大模型服务框架KAG,可显著提升知识推理准确率
近日,在 2024 Inclusion・外滩大会 “超越平面思维,图计算让 AI 洞悉复杂世界” 见解论坛上,蚂蚁集团知识图谱负责人梁磊分享了 “构建知识增强的专业智能体” 相关工作,并带来了知识图谱与大模型结合最新研发成果 —— 知识增强大模型服务框架 KAG。 梁磊介绍,专业领域增强大模型服务框…
-
刚刚,Llama 3.2 来了!支持图像推理,还有可在手机上运行的版本
今天凌晨,大新闻不断。一边是 OpenAI 的高层又又又动荡了,另一边被誉为「真・Open AI」的 Meta 对 Llama 模型来了一波大更新:不仅推出了支持图像推理任务的新一代 Llama 11B 和 90B 模型,还发布了可在边缘和移动设备上的运行的轻量级模型 Llama 3.2 1B 和 …
-
与其造神,不如依靠群体的力量:这家公司走出了一条不同于OpenAI的AGI路线
看过剧版《三体》的读者或许都记得一个名场面:来自三体的智子封锁了人类科技,还向地球人发出了「你们是虫子」的宣告。但没有超能力的普通人史强却在蝗群漫天飞舞的麦田中喊出:「把我们人类看成是虫子的三体人,他们似乎忘了一个事实,那就是虫子从来就没有被真正地战胜过」。 ☞☞☞AI 智能聊天, 问答助手, AI…
-
终于拿到内测!豆包-PixelDance真是字节视频生成大杀器
「火山爆发,震撼天地。」这八个字会在你的头脑中触发怎样的影像?是否与下面的视频类似? ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 提示词:火山喷发,升起巨大蘑菇云,岩浆顺着山体往下流,…
-
陈丹琦等人组织的COLM奖项公布:被ICLR拒稿的Mamba入选杰出论文
会议组织者都是 nlp 头部科学家,在语言建模方面有着相当的成果。 随着 AI 领域的快速发展,大模型逐渐成为研究的核心,为了更好地探索这一领域,2023 年,一批知名的青年学者组织了一个名为 COLM(Conference on Language Modeling)的新会议。 该会议的组织者们都是…
-
又快又准,即插即用!清华8比特量化Attention,两倍加速于FlashAttention2,各端到端任务均不掉点!
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢…
-
视频生成模型变身智能体:斯坦福Percy Liang等提出VideoAgent,竟能自我优化
现在正是「文本生视频」赛道百花齐放的时代,而且其应用场景非常多,比如生成创意视频内容、创建游戏场景、制作动画和电影。甚至有研究表明还能将视频生成用作真实世界的模拟器,比如 openai 今年初就发布过一份将视频生成模型作为世界模拟器的技术报告,参阅本站报道《我在模拟世界!openai 刚刚公布 so…