udio_第9页_创想鸟

人脸生成技术中的声纹特征保护问题

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 人脸生成技术是近年来快速发展的技术之一，它利用人工智能和深度学习算法来生成逼真的虚拟人脸。然而，人脸生成技术也引发了一些隐私和安全方面的问题，其中之一就是声纹特征保护问题。声纹特征是指通过分析…

程序猿

2025年11月26日 • 用户投稿

1000

IDC发布中国计算机视觉解决方案厂商评估，联汇科技作为主要厂商上榜

近日，国际数据公司idc公布了《idc marketscape：中国计算机视觉解决方案厂商评估，2023》报告显示，2022 年，中国ai赋能的计算机视觉解决方案市场规模达123.0亿元人民币。联汇科技凭借出色的能力措施（Capabilities），包括技术产品、服务项目与客户需求满足等能力，以及…

程序猿

2025年11月26日 • 用户投稿

0000

手机运行微软小模型胜过27亿参数的大模型

微软 CEO 纳德拉在 Ignite 大会上宣布，上个月，Phi-2 小尺寸模型将完全开源。这一举措将显著改进常识推理、语言理解和逻辑推理的性能 ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 今天，微软公布了 Phi-2 模型的更多细节以及…

程序猿

2025年11月26日 • 用户投稿

0000

阿里mPLUG-Owl新升级，鱼与熊掌兼得，模态协同实现MLLM新SOTA

openai gpt-4v 和 google gemini 都展现了非常强的多模态理解能力，推动了多模态大模型（mllm）快速发展，mllm 成为了现在业界最热的研究方向。 MLLM 在多种视觉-语言开放任务中取得了出色的指令跟随能力。尽管以往多模态学习的研究表明不同模态之间能够相互协同和促进，但是…

程序猿

2025年11月26日 • 用户投稿

1000

阿里智能体“组装工厂”开源！0经验搞定上万Agent并发

让多智能体开发就像搭积木，阿里巴巴通义实验室开源多智能体编程框架与开发平台agentscope。该平台专门为多智能体应用开发者打造，旨在提供高易用的编程体验、稳定可靠的运行时保障，并且为开发者提供了分布式和多模态的技术支持。内置了OpenAI、DashScope、Gemini、Ollama等多种…

程序猿

2025年11月26日 • 用户投稿

1000

Stability AI开源47秒音频生成模型，虫鸣鸟叫、摇滚、鼓点都能生成

音频生成领域又有好消息：刚刚，stability ai 宣布推出开放模型 stable audio open，该模型能够生成高质量的音频数据。 ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 项目地址：https://huggingface.…

程序猿

2025年11月26日 • 用户投稿

1000

Luma、Runway轮番炸场，视频生成卷出新高度，Sora还能称霸吗？来这场WAIC视频生成论坛寻找答案

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 2023 年 pika 发布时，马斯克曾论断称 2024 年将是「人工智能电影」元年。年初 Sora 惊艳亮相、大杀四方，接着 Stable Video Diffusion 、LTX Stud…

程序猿

2025年11月26日 • 用户投稿

2000

Bengio团队提出多模态新基准，直指Claude 3.5和GPT-4o弱点

AIxiv专栏是本站发布学术、技术内容的栏目。过去数年，本站AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@ji…

程序猿

2025年11月26日 • 用户投稿

1000

让大模型能听会说，国内机构开源全球首个端到端语音对话模型Mini-Omni

AIxiv专栏是本站发布学术、技术内容的栏目。过去数年，本站AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@ji…

程序猿

2025年11月26日 • 用户投稿

0000

音频驱动人像视频模型：字节Loopy、CyberHost研究成果揭秘

近期，来自字节跳动的视频生成模型 Loopy，一经发布就在 X 上引起了广泛的讨论。Loopy 可以仅仅通过一张图片和一段音频生成逼真的肖像视频，对声音中呼吸，叹气，挑眉等细节都能生成的非常自然，让网友直呼哈利波特的魔法也不过如此。 ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使…

程序猿

2025年11月26日 • 用户投稿

2000