udio
-
人脸生成技术中的声纹特征保护问题
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 人脸生成技术是近年来快速发展的技术之一,它利用人工智能和深度学习算法来生成逼真的虚拟人脸。然而,人脸生成技术也引发了一些隐私和安全方面的问题,其中之一就是声纹特征保护问题。 声纹特征是指通过分析…
-
IDC发布中国计算机视觉解决方案厂商评估,联汇科技作为主要厂商上榜
近日,国际数据公司idc公布了《idc marketscape:中国计算机视觉解决方案厂商评估,2023》报告显示,2022 年,中国ai赋能的计算机视觉解决方案市场规模达123.0亿元人民币。 联汇科技凭借出色的能力措施(Capabilities),包括技术产品、服务项目与客户需求满足等能力,以及…
-
手机运行微软小模型胜过27亿参数的大模型
微软 CEO 纳德拉在 Ignite 大会上宣布,上个月,Phi-2 小尺寸模型将完全开源。这一举措将显著改进常识推理、语言理解和逻辑推理的性能 ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 今天,微软公布了 Phi-2 模型的更多细节以及…
-
阿里mPLUG-Owl新升级,鱼与熊掌兼得,模态协同实现MLLM新SOTA
openai gpt-4v 和 google gemini 都展现了非常强的多模态理解能力,推动了多模态大模型(mllm)快速发展,mllm 成为了现在业界最热的研究方向。 MLLM 在多种视觉-语言开放任务中取得了出色的指令跟随能力。尽管以往多模态学习的研究表明不同模态之间能够相互协同和促进,但是…
-
阿里智能体“组装工厂”开源!0经验搞定上万Agent并发
让多智能体开发就像搭积木,阿里巴巴通义实验室开源多智能体编程框架与开发平台agentscope。 该平台专门为多智能体应用开发者打造,旨在提供高易用的编程体验、稳定可靠的运行时保障,并且为开发者提供了分布式和多模态的技术支持。 内置了OpenAI、DashScope、Gemini、Ollama等多种…
-
Stability AI开源47秒音频生成模型,虫鸣鸟叫、摇滚、鼓点都能生成
音频生成领域又有好消息:刚刚,stability ai 宣布推出开放模型 stable audio open,该模型能够生成高质量的音频数据。 ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 项目地址:https://huggingface.…
-
Luma、Runway轮番炸场,视频生成卷出新高度,Sora还能称霸吗?来这场WAIC视频生成论坛寻找答案
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 2023 年 pika 发布时,马斯克曾论断称 2024 年将是「人工智能电影」元年。 年初 Sora 惊艳亮相、大杀四方,接着 Stable Video Diffusion 、LTX Stud…
-
Bengio团队提出多模态新基准,直指Claude 3.5和GPT-4o弱点
AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@ji…
-
让大模型能听会说,国内机构开源全球首个端到端语音对话模型Mini-Omni
AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@ji…
-
音频驱动人像视频模型:字节Loopy、CyberHost研究成果揭秘
近期,来自字节跳动的视频生成模型 Loopy,一经发布就在 X 上引起了广泛的讨论。Loopy 可以仅仅通过一张图片和一段音频生成逼真的肖像视频,对声音中呼吸,叹气,挑眉等细节都能生成的非常自然,让网友直呼哈利波特的魔法也不过如此。 ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使…