微软赢麻了！数十亿文本-图像对训练，多模态Florence开启免费体验，登上Azure

程序猿 • 2025年11月9日 23:45:32 • 科技 • 阅读 0

2021年11月，微软发布了一个多模态视觉基础模型Florence（佛罗伦萨），横扫超过40个基准任务，轻松适用于如分类、目标检测、VQA、看图说话、视频检索和动作识别等多个任务。

时隔一年半，Florence正式开启商用阶段！

Florence能干什么？

最近，微软全球人工智能首席技术官黄学东官宣了微软 Florence 基础模型的公开预览版。

Florence模型经过数十亿文本-图像对的训练，目前已集成进Azure 认知视觉服务中，在「价格」和「性能」上都已到达「生产环境」的要求，目前处于免费试用阶段。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

改进后的视觉服务使开发商能够在不同行业创建前沿的、适应市场的、负责任的计算机视觉应用程序。客户可以将他们的数据无缝地数字化、分析并连接到自然语言的交互中，从图像和视频内容中获取更精确的信息，保护用户远离有害内容，增强安全性，并提升事件响应速度。

Florence的实际能力也很强大，用户可以在Vision Studio中进行「开箱即用」的体验。

体验网址：https://portal.vision.cognitive.azure.com/gallery/featured

具体包括：

Dense Captions（详细的描述）：可以自动提供内容丰富的描述信息、设计建议、可访问的替代文本、搜索引擎优化、智能照片管理等以支持数字化内容。

图像检索：使用自然语言查询，无缝地度量图像和文本之间的相似性，从而改进搜索推荐和广告。

背景去除：可以方便地从原始背景中分割出人物和物体，并替换为其他背景场景，从而改变图像的外观和感觉。

模型定制：降低交付定制模型的成本和时间，能够以更高精度来匹配独特的业务需求，即便只有少量的可用图像。

视频摘要：搜索和交互视频内容，与人类同样直观的方式进行思考和写作。可以帮助找到相关内容，并且不需要额外的元数据。

Reddit

Reddit消费品产品经理Tiffany Ong表示，通过微软的Vision技术，可以使用户更容易发现和理解Reddit上的内容。

新创建的图片描述可以让用户更容易地访问Reddit，使用图像描述来帮助用户提高文章的搜索结果，让Reddit用户有更多机会来探索网站上的图片，参与对话，并最终建立联系和社区感知。

Florence能够为每张图片生成多达10000个标签，使得Reddit能够更好地控制图片中的物体数量，并帮助生成更好的图像描述。

Microsoft 365

除了微软数据中心之外，微软也正在提升Microsoft 365应用程序（包括 Teams、 PowerPoint、 Outlook、 Word、 Designer、 OneDrive）中视觉服务的能力。

在图像分割能力的帮助下，Teams正在推动数字空间的创新型，把虚拟会议的体验提升到新高度。

PowerPoint、 Outlook和Word利用自动替换文本的图像描述来提高可访问性。

Microsoft Designer和OneDrive正在使用改进的图像描述、图像搜索和背景生成来简化图像的可发现性和编辑。

Microsoft数据中心正在利用Vision Services来增强安全性和基础设施的可靠性。

微软爱写作

微软出品的免费英文写作/辅助/批改/评分工具

17 查看详情

LinkedIn

LinkedIn的无障碍工程负责人Jennison Asuncon表示，LinkedIn上有超过40%的帖子中包含至少一张图片，对于盲人或是低视力的用户来说，视觉服务能够让所有用户都有平等的阅读机会，并使他们能够参与到在线对话中。

通过Azure视觉认知服务，LinkedIn可以提供自动图像描述来编辑和支持可选文本，这是一种全新的体验。

不仅我对此感到兴奋，我的同事刚刚分享了一个他们参加活动的照片，LinkedIn的首席执行官Ryan Roslansky也在照片里。

负责任地创新

回顾负责任的人工智能原则，可以了解到微软是如何致力于开发人工智能系统，以提升世界的可访问性。

微软致力于帮助各个组织充分利用人工智能，并正在大力投资于提供技术、资源和专业知识的项目，以增强那些致力于创造一个更可持续、更安全和更容易进入的世界的人的能力。

多模态是未来

包括微软、谷歌在内的多个科技巨头在人工智能发展方向上出奇地一致，认为「多模态模型」是提高人工智能系统能力的最佳途径，也就是单个模型可以同时理解语言、图像、视频和音频等，并能够完成单模态模型无法完成的任务，比如给视频添加文字描述等。

为什么不把几个「单模态」模型串在一起，以达到同样的目的，比如说用一个模型来理解图像，而另一个模型用来理解语言？

第一个原因是，由其他模态提供的背景信息，多模态模型可以在某些情况下比单模态模型在同一任务中表现得更好。

比如说，一个能够理解图像、定价数据和购买历史的人工智能助手可以比一个「只理解定价数据」的AI能够提供更好的个性化产品建议。

并且从计算的角度来看，多模态模型往往更有效率，可以提升数据处理的速度，降低后端的成本。

毫无疑问，所有商业公司都渴望降本增效。

Florence能够理解图像、视频和语言以及这些模态之间的关系，从而可以做到一些单模态无法完成的任务，比如测量图像和文本之间的相似度，分割照片中的对象，然后把它们粘贴到另一个背景上。

几乎所有AI模型的训练都面临数据版权问题，Azure AI的企业副总裁（CVP）John Montgomery在回答有关「Florence的训练数据」时没有透露太多信息，只是说Florence使用的是「负责任地获取」的数据源，包括来自合作伙伴的数据；此外，Montgomery表示，训练数据中删除了可能存在问题的内容，也是公开训练数据集的常见特点。

Montgomery认为，当使用大型基础模型时，最重要的是要确保训练数据集的质量，为每个视觉任务的适应模型创建基础，微软针对每个视觉任务的调整模型都经过了公平性、对抗性和挑战性案例的测试，并实现了与 Azure Open AI Service 和 DALL-E 相同的内容审核服务。

在未来，消费者可以使用Florence做更多的事情，比如检测制造过程中的缺陷，以及在零售店实现自助结账。

不过Montgomery指出这些用例实际上并不需要多模态视觉模型，但他断言，多模态在这个过程中可以增加一些有价值的东西。

Florence是一个经过「完全重新思考」的视觉模型，一旦在图像和文本之间实现了简单且高质量的翻译过程，就会打开一个全新的、充满未知可能性的世界。

客户能够体验到显著改进的图像搜索，将图像和视觉模型以及语言和语音等其它模型类型训练成全新类型的应用，并轻松提高自定义模型的质量。

以上就是微软赢麻了！数十亿文本-图像对训练，多模态Florence开启免费体验，登上Azure的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/558453.html

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

利用人工智能观测海鹦鹉，帮助实现人与自然的和谐相处

上一篇 2025年11月9日 23:44:49

汇人才之智，兴八桂AI产业——广西第二届人工智能大赛获奖团队专访

下一篇 2025年11月9日 23:46:11

好文分享

CSS3实现Material Design的示例代码分享

不断更新中预览这是一个正在完善的css文件，是对原生组件基于标签属性做了美化，对datepicker,select等无法用css实现的暂不考虑在本文内。按钮 Button 初始按钮 button red orange blue green link 描边按钮 button red orange…

程序猿
2025年12月23日
0000
好文分享

如何添加html运行框_在网页中添加HTML代码运行框【添加】

可实时运行HTML代码的交互式编辑框可通过三种方案实现：一、CodeMirror+iframe动态执行，用document.write渲染；二、JSFiddle风格iframe沙箱，用srcdoc属性加载；三、Monaco Editor+Blob URL，提供专业编辑体验。如果您希望在网页中嵌入一…

程序猿
2025年12月23日
0000
好文分享

优化@font-face配置：确保自定义字体在移动设备上的兼容性与显示

本文深入探讨了自定义字体通过@font-face规则在移动设备上无法正确显示的问题，并提供了详细的解决方案。核心在于优化字体格式的声明顺序，强调优先使用ttf、woff2和woff等广泛支持的字体格式，以提升跨平台兼容性，确保自定义字体在包括各类移动设备在内的所有环境中均能稳定渲染。理解@font…

程序猿
2025年12月23日
0000
好文分享

解决移动设备上 @font-face 字体不显示的兼容性指南

移动设备上 @font-face 字体显示异常，常见原因是字体格式优先级配置不当。本文将深入探讨不同字体格式的兼容性，并提供一套优化后的 @font-face 声明最佳实践，确保自定义字体在各类设备和浏览器上都能稳定加载与显示。在现代网页设计中，自定义字体通过 @font-face 规则提供了丰富…

程序猿
2025年12月23日
0000
好文分享

vs中的html怎么运行环境_vs配置html运行环境步骤【指南】

在 Visual Studio 中运行 HTML 需通过 Web 项目模板并借助 IIS Express 服务。1. 安装 VS 时勾选“ASP.NET 和 Web 开发”工作负载；2. 创建 ASP.NET 项目，添加 HTML 页面；3. 编写代码后设为起始页，点击 IIS Express 运行…

程序猿
2025年12月23日
0000
好文分享

HTML文本在span中怎么设置样式_HTML文本在span中如何局部调整字体与颜色

使用span标签结合style属性可对文本局部设置颜色、字体等样式；2. 推荐通过CSS类统一管理多处相同样式，提升可维护性；3. 中文建议设置Microsoft YaHei等常用字体并提供备选，颜色推荐十六进制值；4. 避免过多内联样式，保持结构与表现分离。在HTML中，标签常用于对文本的局部进…

程序猿
2025年12月23日
0000
好文分享

HTML文本与CSS怎么结合使用_HTML文本与CSS怎么结合实现丰富排版效果

HTML提供结构，CSS负责样式，二者结合可实现美观布局。1. 内联样式通过style属性直接设置，适用于单元素调整但难复用；2. 内部样式表置于head中，用style标签定义，适合单页统一排版；3. 外部样式表将CSS独立为文件，通过link引入，利于多页共享与维护，推荐使用；4. 关键CSS属…

程序猿
2025年12月23日
0000
好文分享

网站根目录下的神秘HTML文件：识别与管理域名所有权验证文件

网站根目录下发现的随机命名html文件，通常是用于验证域名或网站所有权的工具。本文将深入探讨这类文件的常见来源、作用及其在google search console等服务中的应用，并提供识别与管理建议，帮助网站管理员理解并妥善处理这些看似“多余”的文件。 1. 这类文件的神秘面纱在维护或更新一个既…

程序猿
2025年12月23日
0000
好文分享

Windows OneDrive同步HTML+CSS项目到多台电脑

使用OneDrive同步HTML+CSS项目可行，需将项目放入OneDrive文件夹并登录同一账号实现多端同步。应采用英文命名、避免特殊字符，使用相对路径引用资源，如href=”css/style.css”。推荐结构：my-website/下分设css、js、images目录…

程序猿
2025年12月23日
0000
好文分享

html代码怎么设置字体_html字体标签与CSS字体样式设置方法

可通过HTML标签或CSS样式自定义网页文字效果：一、使用标签设置字体名称、大小、颜色；二、利用内联style属性设置font-family、font-size、color等；三、在中用定义内部样式表；四、通过link引入外部CSS文件实现样式分离；五、使用@font-face引入Web字体，确保跨…

程序猿
2025年12月23日
0000
好文分享

Windows11 Widgets显示当前HTML使用的CSS文件数

Windows 11 Widgets 不提供网页技术统计功能，无法显示当前HTML使用的CSS文件数，其面板由系统应用渲染，仅支持通过任务栏或快捷键打开、添加组件、调整布局及个性化设置。 Windows 11 Widgets 功能本身是一个操作系统层面的界面组件，它不直接提供“显示当前HTML使用的…

程序猿
2025年12月23日
0000
好文分享

html如何改变字_HTML文字（字体/大小/颜色）修改方法

推荐使用CSS设置文字样式，通过style属性或样式表定义font-family、font-size和color；2. 可在标签内用style直接设置，或在style标签及外部文件中统一管理；3. 避免使用已废弃的font标签。在HTML中修改文字的字体、大小和颜色，主要通过内联样式（style属…

程序猿
2025年12月23日
0000
好文分享

OneDrive跨设备同步，HTML+CSS走到哪写到哪！

OneDrive通过云同步实现HTML和CSS代码跨设备实时协作。将项目存于OneDrive文件夹并登录账户，可自动同步至所有设备；在Surface Pro 9运行Windows 11环境下，使用Visual Studio Code打开OneDrive中的项目目录，保存即触发后台同步；移动端安装On…

程序猿
2025年12月23日
0000
好文分享

HTA中VBScript实现动态图像定位教程

本教程详细讲解如何在HTML应用程序（HTA）中利用VBScript动态控制HTML图像元素的位置。文章将阐述VBScript与DOM（文档对象模型）的交互机制，通过实际代码示例展示如何监听用户输入并实时更新图像的`top`和`left`样式属性，从而实现无需按钮即可响应式调整图像位置的功能。 HT…

程序猿
2025年12月23日
0000
html如何改字体_HTML字体样式（font-family/size）修改方法

通过CSS的font-family和font-size属性可设置网页字体类型与大小，示例包括使用Arial、微软雅黑等字体及px、em等单位，建议结合多个字体备选并用引号包裹中文字体名，推荐在style标签中全局统一设置以保持页面风格一致。在HTML中修改字体样式，主要通过CSS的font-fam…

程序猿
2025年12月23日 • 好文分享
0000
好文分享

html如何加入ppt_HTML内容嵌入PowerPoint演示文稿方法

可通过图片、插件、PDF或OneNote四种方式在PPT中嵌入HTML内容。1. 转为图片插入兼容性好但不可编辑；2. 用Web Viewer插件嵌入实时网页需联网且依赖插件；3. 导出为PDF再插入可保留排版与链接；4. 借助OneNote中转格式还原度高，支持富文本。根据需求选择合适方案即可实现…

程序猿
2025年12月23日
0000
好文分享

网站根目录中神秘HTML文件的真相：域名所有权验证指南

在网站根目录发现一个随机命名且内容单一的`.html`文件，这通常是用于证明域名所有权的验证文件。这类文件由google search console、bing webmaster tools等服务在网站设置时要求创建，以确认您对域名的控制权，是网站管理中的常见实践。理解网站根目录下的未知HTML…

程序猿
2025年12月23日
0000
好文分享

html 如何设置中文_HTML中文编码（UTF-8）与字体设置方法

首先设置HTML字符%ignore_a_1%为UTF-8，在head中添加meta标签；接着通过CSS的font-family指定微软雅黑、宋体等中文字体；若本地无字体则用@font-face引入网络字体；最后配置服务器发送Content-Type头包含charset=UTF-8以确保正确解析。如…

程序猿
2025年12月23日
0000
好文分享

如何用HTML插入标签云组件_HTML CSS3变换与随机颜色生成算法

使用HTML构建标签结构，CSS3添加旋转与过渡效果，JavaScript生成随机HSL颜色并设置字体大小，实现动态交互的标签云组件。要在网页中实现一个动态的标签云组件，结合 HTML、CSS3 变换和随机颜色生成算法，可以按照以下步骤操作。这个组件不仅能提升页面视觉效果，还能通过色彩和旋转增加交…

程序猿
2025年12月23日
0000
好文分享

html如何调用vbscript_HTML调用VBScript（脚本嵌入）方法

VBScript通过标签嵌入HTML，仅在IE中支持，现代浏览器已淘汰该技术。在HTML中调用VBScript，是通过将VBScript代码嵌入到HTML页面的标签中实现的。VBScript 是微软开发的一种脚本语言，主要在 Internet Explorer 浏览器中支持，因此该方法仅适用于I…

程序猿
2025年12月23日
0000