udio_第42页_创想鸟

基于PaddlePaddle复现的CycleMLP

本文提出了一个简单的 MLP-like 的架构 CycleMLP，它是视觉识别和密集预测的通用主干，不同于现代 MLP 架构，例如 MLP-Mixer、ResMLP 和 gMLP，其架构与图像大小相关，因此是在目标检测和分割中不可行。 ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量…

程序猿

2025年11月6日 • 用户投稿

0000

Llasa TTS— 香港科技大学开源的文本转语音模型

Llasa TTS是什么 llasa tts 是香港科技大学基于 llama 架构推出的开源文本转语音（tts）模型，支持高质量语音合成和克隆。llasa tts 基于单层向量量化（vq）编解码器和单个 transformer 架构，与标准 llama 模型完全对齐，生成自然流畅的语音，支持情感表达…

程序猿

2025年11月5日 • 用户投稿

2000

MM-StoryAgent— 上海交大联合阿里开源的多智能体故事绘本视频生成框架

mm-storyagent：一个开源的多模态、多智能体故事绘本视频生成框架上海交通大学X-LANCE实验室和阿里巴巴集团联合打造的MM-StoryAgent，是一个开源框架，旨在生成沉浸式、有声的故事绘本视频。它巧妙地结合了大型语言模型（LLMs）和多种模态的生成工具（包括文本、图像、音频），并采…

程序猿

2025年11月5日 • 用户投稿

2000

Gemini 2.0 Flash— Google推出的多模态 AI 模型

Gemini 2.0 Flash是什么 gemini 2.0 flash是google推出的多模态ai模型，结合文本理解和图像生成能力。根据自然语言输入生成高质量的图像，支持多轮对话式的图像编辑，保持上下文连贯性。模型擅长将文本与图像结合，例如为故事生成连贯的插图、根据对话修改图像风格，用世界知识生…

程序猿

2025年11月5日 • 用户投稿

0000

Multi-Speaker— AudioShake 推出的多说话人声分离模型

Multi-Speaker是什么 multi-speaker是audioshake推出的全球首个高分辨率多说话人分离模型。支持将音频中的多个说话人精准分离到不同轨道，解决传统音频工具在处理重叠语音时的难题。multi-speaker适用于多种场景，先进神经架构支持高采样率，适合广播级音频，支持处理长…

程序猿

2025年11月5日 • 用户投稿

0000

ai聊天无禁词的有哪些？推荐十款无违禁词的ai聊天软件

十款无违禁词的AI聊天软件包括：1.智谱清言，2.文心一言，3.Studio Global AI Chat，4.Lobe Chat，5.Glow，6.Wow，7.幻幻，8.冒泡鸭，9.我在Al，10.Rochat AI，这些软件各具特色，满足不同用户需求。 ☞☞☞点击问小白一键开启ai新世界，助您轻…

程序猿

2025年11月5日 • 用户投稿

1000

摩尔线程全栈算力产品亮相2025中关村论坛年会，以国产全功能GPU加速AI创新

2025中关村论坛年会于3月27日至31日在北京成功举办。作为中国面向全球科技创新的重要平台，本届论坛以“新质生产力与全球科技合作”为主题，由科技部等七大机构联合主办。摩尔线程作为人工智能时代的算力基石，在“人工智能+”展区集中展示了其端到云的全栈式算力产品，包括夸娥（KUAE）万卡智算集群、全功…

程序猿

2025年11月5日 • 用户投稿

0000

OmniFlow— 松下联合加州大学推出的多模态AI模型

omniflow是由松下与加州大学洛杉矶分校（ucla）联合开发的一种多模态人工智能模型。该模型能够实现文本、图像和音频之间的任意到任意（any-to-any）生成任务，比如将文字描述转化为图像或声音，或将音频内容转化为视觉图像等。omniflow在现有图像生成流匹配框架的基础上进行了扩展，通过整合…

程序猿

2025年11月5日 • 用户投稿

0000

AI学习网站有哪些_好用的AI学习网站大全

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ AI大学堂：由科大讯飞打造的在线AI教育平台 OpenAI Academy：由OpenAI推出的免费AI学习资源平台 Day of AI：麻省理工学院（MIT）开发的面向公众的AI学习项目 fa…

程序猿

2025年11月5日 • 用户投稿

1000

AI Overviews如何设置数据看板 AI Overviews可视化监控配置

要搭建ai overviews数据看板，首先明确核心指标并整合数据源，包括曝光量与点击率、查询覆盖率与触发率、用户互动与满意度信号、内容质量与准确性；其次选择合适的可视化工具如google looker studio或tableau，并设计清晰的布局与图表类型；最后配置监控与告警机制，设置阈值告警与…

程序猿

2025年11月5日 • 用户投稿

0000