产业
-
2024年ICASSP|字节跳动流媒体音频团队创新解方案:解决丢包补偿和通用音质修复问题



在本届icassp 2024 各类音频国际挑战赛中,字节跳动流媒体音频团队联合西北工业大学音频语音与语言处理研究实验室,在丢包补偿(packet loss concealment, plc)与音质修复(speech signal improvement, ssi)两个挑战赛道中,多项指标上表现优秀,…
-
谷歌Deepmind设想重塑机器人,为大型模型引入具身智能的未来



过去一年中,连连取得突破的大模型正在重塑机器人研究领域。 随着最先进的大模型成为机器人的”大脑”,机器人的进化速度超乎想象。 7 月,谷歌 DeepMind 宣布推出 RT-2:全球第一个控制机器人的视觉 – 语言 – 动作(VLA)模型。 只需要向对…
-
比尔·盖茨亲笔揭示了「OpenAI春晚」的重要性



机器的能力报道 编辑:吴昕 这篇文章发布时间正好在OpenAI首届开发者大会(也被一些人称为开发者的春晚)之后,盖茨显然也了解发布会内容,在这篇文章中,他对GPT技术将走向何方以及将如何影响我们的生活做了最通俗易懂的解读。 今天,我仍然和创办微软时一样热爱软件。软件在之后几十年里有了很大改进,但在许…
-
2023年ACL Fellow中只有一位华人学者-周明



本次入选 2023 ACL Fellow 的国内外学者共有 5 位,1 位内地学者澜舟科技创始人 & CEO 周明入选。 以人类语言为研究对象的「自然语言处理」是人工智能最重要的研究方向之一。在自然语言处理领域,acl 是世界上影响力最大、也最具活力的国际学术组织,成立至今已有 60 多年历…
-
学会多模态命令:谷歌图像生成AI让您轻松跟着画



现在有一种谷歌新设计的图像生成模型,可以用图2的风格来画图1的猫猫,并给它戴上一顶帽子。这个模型通过指令微调技术,可以根据文本指令和多张参考图像来准确生成新的图像。效果非常好,堪比ps大神亲自帮你p图。 ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模…
-
CES 2024被机器人所主导



机器之能报道 编辑:佳琪 2024 年国际消费电子展(CES)这一科技界的风向标活动刚刚落幕。作为全球备受瞩目的科技盛会,CES 吸引了来自 150 多个国家和地区的 4000 多家尖端科技企业。各家品牌纷纷秀出了最先进的技术和产品。英伟达的 AI PC 布局、英特尔最新的第 14 代处理器、发布 …
-
监管阻力使Adobe放弃200亿美元收购Figma计划



「收购可以,请出售核心业务。」 在2022年9月,行业巨头adobe宣布以高达200亿美元的价格收购知名的ui和ux设计工具套件制造商figma。一经消息传出,设计圈迅速对此作出了大量负面反应 设计师们最担心的似乎是 Adobe 会毁掉甚至终止 Figma 的产品。还有人推测 Adobe 会以半途而…
-
上交大发布推理引擎PowerInfer,其token生成速率仅比A100低18%,或将取代4090成为A100的替代品



为了不改变原意而重写内容,需要将语言重写为中文,不需要出现原句 本网站的编辑部 PowerInfer 的出现使得在消费级硬件上运行 AI 变得更加高效 上海交大团队,刚刚推出超强 CPU/GPU LLM 高速推理引擎 PowerInfer。 ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费…
-
无条件免费商用的全球最长开源模型XVERSE-Long-256K



元象发布了全球首个上下文窗口长度256k的开源大模型xverse-long-256k。这个模型支持输入25万汉字,使得大模型应用能够进入“长文本时代”。该模型完全开源,可以无条件免费商用,并且还附带有详细的手把手训练教程,这让海量的中小企业、研究者和开发者能够更早地实现“大模型自由”。 全球主流长文…
-
清华系初创公司发布全球首个4D骨骼动画框架,实现一键将实景转化为动画,并且能够生成个性化角色



苹果最近宣布将于2月2日推出首款虚拟头显设备vision pro,预计这款xr设备将引领下一代终端的快速发展。随着虚拟显示设备的普及,数字交互将从平面走向立体,立体模型和立体动画将成为未来的主流内容形式。多维沉浸式交互在虚实融合的趋势下也将成为潮流。 但从数据规模看,现阶段内容产业的数据积累仍以 2…