微软赢麻了!数十亿文本-图像对训练,多模态Florence开启免费体验,登上Azure

2021年11月,微软发布了一个多模态视觉基础模型Florence(佛罗伦萨),横扫超过40个基准任务,轻松适用于如分类、目标检测、VQA、看图说话、视频检索和动作识别等多个任务。

时隔一年半,Florence正式开启商用阶段!

Florence能干什么?

最近,微软全球人工智能首席技术官黄学东官宣了微软 Florence 基础模型的公开预览版。

Florence模型经过数十亿文本-图像对的训练,目前已集成进Azure 认知视觉服务中,在「价格」和「性能」上都已到达「生产环境」的要求,目前处于免费试用阶段。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

图片

改进后的视觉服务使开发商能够在不同行业创建前沿的、适应市场的、负责任的计算机视觉应用程序。客户可以将他们的数据无缝地数字化、分析并连接到自然语言的交互中,从图像和视频内容中获取更精确的信息,保护用户远离有害内容,增强安全性,并提升事件响应速度。

Florence的实际能力也很强大,用户可以在Vision Studio中进行「开箱即用」的体验。

图片

体验网址:https://portal.vision.cognitive.azure.com/gallery/featured

具体包括:

Dense Captions(详细的描述):可以自动提供内容丰富的描述信息、设计建议、可访问的替代文本、搜索引擎优化、智能照片管理等以支持数字化内容。

图像检索:使用自然语言查询,无缝地度量图像和文本之间的相似性,从而改进搜索推荐和广告。

背景去除:可以方便地从原始背景中分割出人物和物体,并替换为其他背景场景,从而改变图像的外观和感觉。

模型定制:降低交付定制模型的成本和时间,能够以更高精度来匹配独特的业务需求,即便只有少量的可用图像。

视频摘要:搜索和交互视频内容,与人类同样直观的方式进行思考和写作。可以帮助找到相关内容,并且不需要额外的元数据。

Reddit

Reddit消费品产品经理Tiffany Ong表示,通过微软的Vision技术,可以使用户更容易发现和理解Reddit上的内容。

新创建的图片描述可以让用户更容易地访问Reddit,使用图像描述来帮助用户提高文章的搜索结果,让Reddit用户有更多机会来探索网站上的图片,参与对话,并最终建立联系和社区感知。

Florence能够为每张图片生成多达10000个标签,使得Reddit能够更好地控制图片中的物体数量,并帮助生成更好的图像描述。

Microsoft 365

除了微软数据中心之外,微软也正在提升Microsoft 365应用程序(包括 Teams、 PowerPoint、 Outlook、 Word、 Designer、 OneDrive)中视觉服务的能力。

在图像分割能力的帮助下,Teams正在推动数字空间的创新型,把虚拟会议的体验提升到新高度。

PowerPoint、 Outlook和Word利用自动替换文本的图像描述来提高可访问性。

Microsoft Designer和OneDrive正在使用改进的图像描述、图像搜索和背景生成来简化图像的可发现性和编辑。

Microsoft数据中心正在利用Vision Services来增强安全性和基础设施的可靠性。

微软爱写作 微软爱写作

微软出品的免费英文写作/辅助/批改/评分工具

微软爱写作 17 查看详情 微软爱写作

LinkedIn

LinkedIn的无障碍工程负责人Jennison Asuncon表示,LinkedIn上有超过40%的帖子中包含至少一张图片,对于盲人或是低视力的用户来说,视觉服务能够让所有用户都有平等的阅读机会,并使他们能够参与到在线对话中。

图片

通过Azure视觉认知服务,LinkedIn可以提供自动图像描述来编辑和支持可选文本,这是一种全新的体验。

不仅我对此感到兴奋,我的同事刚刚分享了一个他们参加活动的照片,LinkedIn的首席执行官Ryan Roslansky也在照片里。

负责任地创新

回顾负责任的人工智能原则,可以了解到微软是如何致力于开发人工智能系统,以提升世界的可访问性。

图片

微软致力于帮助各个组织充分利用人工智能,并正在大力投资于提供技术、资源和专业知识的项目,以增强那些致力于创造一个更可持续、更安全和更容易进入的世界的人的能力。

多模态是未来

包括微软、谷歌在内的多个科技巨头在人工智能发展方向上出奇地一致,认为「多模态模型」是提高人工智能系统能力的最佳途径,也就是单个模型可以同时理解语言、图像、视频和音频等,并能够完成单模态模型无法完成的任务,比如给视频添加文字描述等。

图片

为什么不把几个「单模态」模型串在一起,以达到同样的目的,比如说用一个模型来理解图像,而另一个模型用来理解语言?

第一个原因是,由其他模态提供的背景信息,多模态模型可以在某些情况下比单模态模型在同一任务中表现得更好。

比如说,一个能够理解图像、定价数据和购买历史的人工智能助手可以比一个「只理解定价数据」的AI能够提供更好的个性化产品建议。

并且从计算的角度来看,多模态模型往往更有效率,可以提升数据处理的速度,降低后端的成本。

毫无疑问,所有商业公司都渴望降本增效。

Florence能够理解图像、视频和语言以及这些模态之间的关系,从而可以做到一些单模态无法完成的任务,比如测量图像和文本之间的相似度,分割照片中的对象,然后把它们粘贴到另一个背景上。

几乎所有AI模型的训练都面临数据版权问题,Azure AI的企业副总裁(CVP)John Montgomery在回答有关「Florence的训练数据」时没有透露太多信息,只是说Florence使用的是「负责任地获取」的数据源,包括来自合作伙伴的数据;此外,Montgomery表示,训练数据中删除了可能存在问题的内容,也是公开训练数据集的常见特点。

图片

Montgomery认为,当使用大型基础模型时,最重要的是要确保训练数据集的质量,为每个视觉任务的适应模型创建基础,微软针对每个视觉任务的调整模型都经过了公平性、对抗性和挑战性案例的测试,并实现了与 Azure Open AI Service 和 DALL-E 相同的内容审核服务。

在未来,消费者可以使用Florence做更多的事情,比如检测制造过程中的缺陷,以及在零售店实现自助结账。

不过Montgomery指出这些用例实际上并不需要多模态视觉模型,但他断言,多模态在这个过程中可以增加一些有价值的东西。

Florence是一个经过「完全重新思考」的视觉模型,一旦在图像和文本之间实现了简单且高质量的翻译过程,就会打开一个全新的、充满未知可能性的世界。

客户能够体验到显著改进的图像搜索,将图像和视觉模型以及语言和语音等其它模型类型训练成全新类型的应用,并轻松提高自定义模型的质量。

以上就是微软赢麻了!数十亿文本-图像对训练,多模态Florence开启免费体验,登上Azure的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/558453.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年11月9日 23:44:49
下一篇 2025年11月9日 23:46:11

相关推荐

  • Go语言在操作系统内核开发中的应用与考量

    go语言在理论上可用于开发#%#$#%@%@%$#%$#%#%#$%@_30d23ef4f49e85f37f54786ff984032c++内核,如同其他图灵完备语言。然而,这通常需要一个小型汇编层,并限制使用语言的特定子集。尽管go曾有实验性的内核实现(如“tiny”项目),但它们已过时且不兼容现…

    2025年12月16日
    000
  • Go语言能否用于操作系统核心开发?深入探讨其可行性与挑战

    本文深入探讨了go语言在操作系统核心开发中的可行性。尽管理论上任何图灵完备语言都能构建操作系统,但实际操作中需考虑汇编层、语言子集限制等关键因素。文章将通过分析javaos和singularity等现有案例,结合go语言自身的特点和早期“tiny”内核的尝试,阐述go在操作系统开发中的潜力与面临的挑…

    2025年12月16日
    000
  • Go语言能否用于操作系统内核开发?

    本文探讨了使用Go语言开发操作系统内核的可行性。虽然理论上任何图灵完备的语言都可以用于此目的,但实际应用中存在诸多挑战。本文将分析Go语言的优势与局限,并提供相关案例与参考,帮助开发者评估Go语言在操作系统内核开发中的适用性。 操作系统内核开发是一个极具挑战性的任务,通常需要对硬件进行底层控制,并对…

    2025年12月16日
    000
  • JSON序列化与反序列化效率优化

    选用高效JSON库、精简数据量、复用配置和流式处理可显著提升序列化性能:.NET优先用System.Text.Json,Java选Jackson,Python推荐orjson;避免冗余字段,预估集合容量;共享JsonSerializerOptions或ObjectMapper实例;大对象采用Json…

    2025年12月16日
    000
  • 在Windows环境下使用Cgo:支持、配置与注意事项

    Cgo在Windows平台上得到良好支持,允许Go程序与C/C++代码进行互操作。然而,开发者需要注意Go版本兼容性以及潜在的已知问题。本文将详细探讨Cgo在Windows上的应用,并提供配置指导和使用建议。 Cgo在Windows上的支持概览 #%#$#%@%@%$#%$#%#%#$%@_6d50…

    2025年12月15日
    000
  • go语言用什么开发工具 go语言开发工具有哪些

    VS Code因轻量、插件丰富、调试强大且免费,成为Go开发者首选;GoLand则以深度语言支持和一体化体验,适合复杂项目与专业团队。 Go语言的开发工具选择其实挺多的,从轻量级文本编辑器到功能完备的集成开发环境(IDE)都有。在我看来,最主流且广受推崇的当属微软的VS Code和JetBrains…

    2025年12月15日
    000
  • python的ide是什么

    PyCharm适合中大型项目,VS Code轻量可扩展,Spyder专为科学计算设计,IDLE适合初学者,Jupyter用于交互式数据分析。 Python的IDE(集成开发环境)是专门为编写Python代码设计的软件工具,它把代码编辑、调试、运行和项目管理等功能整合在一起,提升开发效率。 常见的Py…

    2025年12月14日
    000
  • Python入门的必备工具有哪些_Python入门开发工具的精选推荐

    Python初学者应选择合适工具提升学习效率,首选PyCharm、VS Code或Thonny等IDE,结合Jupyter Notebook与Anaconda进行数据科学学习,辅以Sublime Text或Atom编辑器,并利用venv和pip管理环境与包。 如果您刚开始学习Python,选择合适的…

    2025年12月14日
    000
  • 使用Python与Windows任务计划程序集成,实现定时弹出桌面通知

    本教程详细介绍了如何利用Python的`win32com.client`库与Windows任务计划程序交互,实现高效的定时任务调度。通过结合PowerShell脚本和`BurntToast`模块,可以在指定时间自动弹出Windows桌面通知,且Python脚本在调度完成后即可退出,避免长时间运行。文…

    2025年12月14日
    000
  • Pywinauto元素识别不全?Win32与UIA后端选择深度解析

    本文深入探讨了pywinauto在自动化windows应用时,当`win32`后端无法识别所有ui元素(特别是新弹出对话框中的元素)的问题。核心解决方案是切换至更现代、更强大的`uia`后端,它能提供更准确的元素层级结构,从而有效解决元素查找不全的困境,确保自动化脚本的稳定性与准确性。 Pywina…

    2025年12月14日
    000
  • python如何使用turtle画月饼

    先画一个金黄色圆形作为月饼主体,再在表面均匀分布8个橙色小圆作花纹,最后在中心写上“月”字,形成一个简洁美观的中秋月饼图案。 用 Python 的 turtle 模块画一个简单的“月饼”图案,可以通过绘制圆形、添加花纹和文字来模拟传统月饼的外观。下面是一个基础但美观的示例,展示如何画一个带花纹的月饼…

    2025年12月14日
    000
  • 初学者如何配置 Python 开发 IDE(VS Code、PyCharm)

    初学者配置Python开发环境首选VS Code或PyCharm。先从python.org安装Python并添加到PATH,验证安装后,在VS Code中安装官方Python扩展,选择解释器并运行.py文件,可选装pylint和black工具;PyCharm用户则下载Community版,设置项目解…

    2025年12月14日
    000
  • python-pptx 中高效定位和操作幻灯片内容占位符

    python-pptx 库在处理“标题和内容”幻灯片时,没有直接的 content 属性来访问主内容框。开发者通常通过 slide.shapes.placeholders 集合,并根据索引(通常是 placeholders[1])或占位符类型(如 PpPlaceholderType.BODY 或 P…

    2025年12月14日
    000
  • VSCode Python 配置项变迁与查找策略

    本教程旨在解决VSCode中Python及相关扩展配置项难以查找的问题,特别是面对配置变更时。文章将详细介绍通过查阅扩展文档、Marketplace配置部分以及利用VSCode内置设置UI的“在settings.json中打开”功能,快速准确地定位所需配置键值的方法,帮助开发者有效管理和更新其开发环…

    2025年12月14日
    000
  • Python怎样操作数据库_Python数据库CRUD步骤解析

    Python操作数据库需通过驱动建立连接并执行SQL,遵循连接、创建游标、执行SQL、提交事务、关闭连接的流程,使用参数化查询防SQL注入,结合try-except-finally管理事务确保数据一致性。 Python操作数据库的核心在于通过特定的数据库驱动(如 sqlite3 、 psycopg2…

    2025年12月14日
    000
  • Python的type()函数:获取对象的类型

    Python的type()函数:获取对象的类型,需要具体代码示例 在Python中,我们经常需要知道一个对象的类型,以便在程序中进行相应的处理。Python提供了type()函数来获取对象的类型。本文将介绍type()函数的使用方法,并给出具体的代码示例。 首先,我们来看一下type()函数的基本用…

    2025年12月13日
    000
  • php源码怎么连mssql数据库_连php源码mssql数据库方法

    答案:可通过启用sqlsrv、PDO或旧版mssql扩展连接MSSQL数据库。首先确认php.ini中启用对应扩展,如sqlsrv需添加extension=php_sqlsrv_80.dll并重启服务器,使用sqlsrv_connect函数连接;PDO需启用php_pdo_odbc.dll,通过OD…

    2025年12月13日
    000
  • 微软php怎么用_Windows系统下PHP安装与使用方法教程

    首先确认PHP是否成功安装并正确集成到Web服务器,接着通过下载PHP二进制包、配置php.ini文件、将PHP模块加载至Apache服务器、创建info.php测试脚本及命令行执行测试验证环境搭建完整。 如果您尝试在Windows系统上配置PHP环境以运行基于PHP的Web应用程序,但无法正确解析…

    2025年12月12日
    000
  • 通过Windows认证php连接mssql_设置php连接mssql的认证方法

    要实现PHP通过Windows身份验证连接SQL Server,需使用sqlsrv扩展并配置Web服务器以有权限的域账户运行,连接时省略用户名密码,利用系统安全上下文完成认证。 在Windows环境下使用PHP连接SQL Server时,如果希望避免使用用户名和密码,可以通过Windows身份验证(…

    2025年12月12日
    000
  • 通过php连接mssql执行存储过程_优化php连接mssql的存储过程调用

    推荐使用微软官方sqlsrv扩展连接MSSQL,通过sqlsrv_prepare和参数绑定安全调用存储过程,启用持久连接减少开销,并配合forward-only游标逐行处理大量结果,提升性能与稳定性。 在PHP中连接MSSQL并调用存储过程是许多企业级应用中的常见需求,尤其是在与Windows服务器…

    2025年12月12日
    000

发表回复

登录后才能评论
关注微信