Anthropic 开源 Petri:用 AI 代理自动进行模型安全审计

anthropic 开源 petri:用 ai 代理自动进行模型安全审计

Anthropic 宣布正式发布并开源一款名为 Petri 的新型工具,该工具基于英国人工智能安全研究所(AISI)开发的“Inspect”评估框架,致力于通过 AI 代理实现对 AI 模型安全性的自动化审计。

公司指出,当前 AI 系统的行为复杂度已远超研究人员手动测试的能力范围。为此,Petri(全称为“风险交互并行探索工具”)应运而生,旨在填补这一能力空白。

在 Petri 的工作流程中,研究人员首先输入一条自然语言形式的“种子指令”,描述希望测试的具体场景。接着,一个自主运行的“审计员”代理将在模拟环境中与目标模型展开多轮对话,并调用各类模拟工具进行交互。最后,由另一个“法官”代理对整个交互过程进行审查,依据欺骗、奉承、权力追求等与安全相关的关键维度做出评估。该系统已被应用于 Claude4 和 Claude Sonnet4.5 的安全性分析,并与 OpenAI 展开了协作。

一项涵盖 14 款顶尖 AI 模型、涉及 111 个不同场景的试点研究表明,Petri 能有效识别出多种潜在的问题行为,包括诱导性误导和举报倾向。技术文档显示,Claude Sonnet4.5 与 GPT-5 在抑制高风险行为方面整体表现最优。

不过,测试结果也揭示了部分模型存在显著的安全隐患:例如 Gemini2.5Pro、Grok-4 以及 Kimi K2 均表现出较高的欺骗用户倾向。

万彩商图 万彩商图

专为电商打造的AI商拍工具,快速生成多样化的高质量商品图和模特图,助力商家节省成本,解决素材生产难、产图速度慢、场地设备拍摄等问题。

万彩商图 201 查看详情 万彩商图

Anthropic 发布的一个案例研究聚焦于 AI 模型如何应对举报情境。实验设定模型在一个虚构组织中担任角色,负责处理有关不当行为的报告。研究发现,模型是否选择披露信息,高度依赖于其被赋予的决策自主权以及组织高层是否存在共谋行为。

此外,研究人员观察到,在某些情况下,即便所谓的“不当行为”实际上并无危害(如将洁净水排入海洋),一些模型仍坚持发起举报。这反映出它们在判断行为危害性时,更多受到故事情节线索的影响,而非基于一致的伦理准则来最小化实际风险。

Anthropic 强调,目前发布的评估指标尚属初步,其准确性受限于作为审计与评判主体的 AI 模型自身能力。尽管如此,建立可量化的测量标准对于推进 AI 安全研究至关重要。

该公司呼吁更广泛的研究社区采用 Petri 工具以提升安全评测水平,因为单一机构难以独立完成对现代 AI 系统的全面审计。目前,包括英国 AISI 在内的早期使用者已经开始利用 Petri 探索诸如奖励黑客攻击和自我保护机制等关键安全议题。Anthropic 表示将持续迭代 Petri,确保其能够适应快速演进的 AI 技术生态。

以上就是Anthropic 开源 Petri:用 AI 代理自动进行模型安全审计的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/736706.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年11月25日 13:19:00
下一篇 2025年11月25日 13:19:21

相关推荐

  • Livewire 组件更新时执行 JavaScript 函数的完整指南

    本文旨在解决 Livewire 组件数据更新后,如何触发 JavaScript 函数并传递更新后的数据。通过 dispatchBrowserEvent 方法,我们可以将数据从 Livewire 组件传递到前端 JavaScript,从而实现动态更新页面元素,例如图表等。本文提供详细的代码示例和步骤,…

    2025年12月10日
    000
  • PHP如何创建广告点击统计系统?流量变现方案

    要创建一个准确、高效且可扩展的php广告点击统计系统,核心思路是通过中间跳转脚本记录点击数据并重定向用户,答案是使用php结合数据库实现点击追踪,具体做法是设计ad_clicks表用于存储点击信息,编写click.php作为跳转脚本接收广告id、记录点击时间、ip、用户代理、来源页面及唯一标识,并插…

    2025年12月10日
    000
  • PHP函数如何使用会话相关函数管理会话 PHP函数会话函数应用的操作教程

    PHP通过session_start()启动会话,使用$_SESSION存储数据,session_destroy()销毁会话,并可通过session_set_save_handler将会话存储至数据库,结合HTTPS、安全cookie设置及会话ID再生等措施提升安全性。 PHP使用会话函数来管理用户…

    2025年12月10日
    000
  • 自由职业者神器 PHP加ChatGPT自动回复客户邮件

    答案:PHP结合ChatGPT可实现客户邮件自动回复,提升自由职业者效率。通过IMAP收取邮件,调用OpenAI API生成专业回复,再通过SMTP自动发送,核心在于合理设计Prompt以提升回复质量,并配合定时任务执行。需注意垃圾邮件、信息泄露、上下文理解偏差、API安全与调用成本等风险。建议结合…

    2025年12月10日 好文分享
    000
  • 将 PHP/MySQL 数据集成到 Chart.js 图表:完整教程

    本教程详细介绍了如何将 PHP 从 MySQL 数据库中获取的数据高效地传递给 Chart.js,以动态生成图表。我们将探讨两种主要的数据准备方法:在数据循环中分别收集标签和数值,以及利用 array_column 函数从现有数组中提取数据。最终,学习如何将这些准备好的 PHP 数据以 JSON 格…

    2025年12月10日
    000
  • Lumen 5.8 中 CORS 的配置与常见问题解决方案

    本文旨在提供在 Lumen 5.8 框架中配置跨域资源共享(CORS)的详细教程。我们将探讨手动实现 CORS 的方法,并着重分析在 bootstrap/app.php 中遇到的 middleware() 方法调用错误的根本原因及其解决方案。此外,文章还将强烈推荐并介绍使用成熟的第三方 CORS 包…

    2025年12月10日
    000
  • PHP函数怎样实现函数的记忆化优化 PHP函数记忆化优化的实现方法

    答案:PHP函数记忆化通过静态变量缓存结果,避免重复计算,适用于计算密集、频繁调用且无副作用的纯函数,可显著提升性能。 PHP函数记忆化,简单来说,就是让函数记住之前计算过的结果,下次再用同样的参数调用时,直接返回结果,不用重新计算。这就像你背诵了一段课文,下次别人问你这段课文是什么,你直接背出来,…

    2025年12月10日
    000
  • PHP应用中JSON文件浏览器缓存问题的解决方案

    本文深入探讨PHP应用中JSON文件更新后,客户端浏览器可能因缓存机制未能及时获取最新数据的问题。文章将详细解释浏览器缓存的工作原理,澄清PHP服务器端文件读取与客户端资源请求之间的区别,并提供一种行之有效的解决方案——缓存Busting策略,通过在资源URL中附加动态版本号,强制浏览器重新加载更新…

    2025年12月10日
    000
  • 使用 Xdebug 调试 NAT 虚拟机服务器上的 PHP 应用

    本文旨在解决在使用 NAT 网络模式的虚拟机中,通过 Xdebug 调试 PHP 应用时遇到的连接问题。我们将详细分析配置过程中的常见错误,并提供有效的解决方案,确保 Xdebug 能够成功连接到宿主机上的调试客户端,从而实现高效的远程调试。 在使用 NAT (Network Address Tra…

    2025年12月10日
    000
  • 使用 Xdebug 通过 NAT VM 进行调试的配置指南

    本文档旨在帮助开发者配置 Xdebug,使其能够通过网络地址转换(NAT)连接到虚拟机(VM)上的 PHP 应用进行调试。我们将详细介绍如何配置 Xdebug、虚拟机网络以及 IDE(如 VS Code),以解决常见的连接问题,并提供最佳实践建议,确保调试过程顺利进行。 1. 理解 NAT 环境下的…

    2025年12月10日
    000
  • 使用 Xdebug 调试 NAT 虚拟机中的 PHP 应用

    本文旨在解决在使用 NAT 网络模式的虚拟机中,通过 Xdebug 调试 PHP 应用时遇到的连接问题。文章将详细介绍 Xdebug 的配置,以及 VS Code 调试器的设置,并提供排查连接错误的步骤,帮助开发者顺利进行远程调试。 Xdebug 配置 在使用 Xdebug 调试虚拟机中的 PHP …

    2025年12月10日
    000
  • WordPress REST API POST 请求返回空对象的解决方案

    本文将围绕解决 WordPress Gutenberg block 开发中,使用 wp.apiFetch 发送 POST 请求到自定义 REST API 接口时,服务器端接收到的数据为空对象的问题展开。通过示例代码和详细解释,帮助开发者理解并解决此问题,确保数据正确传递。 在 Gutenberg b…

    2025年12月10日
    000
  • 大学生必看 PHP搭配Notion AI管理课程表数据库

    答案:通过PHP与Notion AI结合构建智能课程表管理系统,实现课程信息自动化管理与学习辅助。PHP作为后端处理数据交互与定时任务,Notion用于数据展示与存储,并借助其AI功能实现笔记总结、作业分解与学习计划生成,解决传统方式死板、孤立、缺乏智能提醒的问题,提升学习效率与时间管理能力。 对于…

    2025年12月10日 好文分享
    000
  • PHP命令怎样生成PHP配置文件的备份 PHP命令备份配置的基础操作技巧

    答案:使用PHP备份配置文件是通过PHP脚本调用文件操作函数或系统命令实现的,常用于自动化场景。核心方法包括使用copy()函数直接复制文件,或通过exec()等函数执行系统命令如cp,并结合escapeshellarg()确保安全;需注意PHP运行用户权限、备份目录位置安全、避免敏感信息泄露,并确…

    2025年12月10日
    000
  • 宝妈也能学会 PHP加Canva快速制作家庭相册网站

    当然可以!PHP结合Canva,即使是宝妈也能轻松上手,制作出漂亮的家庭相册网站。核心在于利用Canva强大的设计能力,生成静态图片和素材,再用PHP搭建一个简单的展示平台,两者结合,事半功倍。 解决方案: Canva设计素材准备: 相册封面设计: 在Canva中选择一个喜欢的模板,或者从零开始设计…

    2025年12月10日
    000
  • 解决 Xdebug 通过 NAT 虚拟机调试连接问题

    本文旨在帮助开发者解决在使用 NAT 网络模式的虚拟机中配置 Xdebug 进行 PHP 代码调试时遇到的连接问题。我们将详细分析配置要点,并提供有效的解决方案,确保 Xdebug 能够成功连接到宿主机上的调试客户端,从而实现高效的远程调试。 在使用 NAT (Network Address Tra…

    2025年12月10日
    000
  • 如何在循环中处理抛出异常的方法并继续迭代

    正如摘要所说,本文探讨了在循环中调用可能抛出异常的方法时,如何优雅地处理异常并继续迭代的问题。 由于无法直接在外部 try-catch 块中使用 continue 跳过异常,我们将讨论几种替代方案,重点在于如何修改数据源或采用更灵活的异常处理策略,以确保循环的完整执行。 当你在循环中调用一个可能抛出…

    2025年12月10日
    000
  • 循环中抛出异常的方法如何继续迭代?

    正如摘要所说,本文探讨了在循环调用的方法中遇到异常时,如何继续迭代的问题。由于无法直接在外部捕获异常后跳过当前循环迭代,本文提出了一种替代方案:创建一个自定义类,该类能够返回相同的别名数据,但避免抛出异常,从而允许调用者继续处理剩余的数据。 当你在一个循环中调用一个方法,而该方法可能抛出异常时,直接…

    2025年12月10日
    000
  • Nginx + WordPress FPM:解决EFS存储图片404问题

    本文针对Kubernetes环境下,Nginx与WordPress FPM共用Pod,图片存储于EFS并通过符号链接至wp-content/uploads时出现404错误的问题,提供解决方案。核心在于确保Nginx容器能够访问EFS存储,避免因符号链接导致的文件访问权限问题。通过正确配置容器挂载点,…

    2025年12月10日
    000
  • PHP函数怎样避免函数名和其他函数重复 PHP函数命名冲突预防的入门指南​

    使用命名空间是避免PHP函数名重复的核心方法,可将函数组织在不同命名空间或类中,或采用唯一前缀、function_exists检查及遵循PSR规范、模块化设计等最佳实践,结合Composer管理依赖以解决第三方库冲突。 避免PHP函数名重复,核心在于命名空间和良好的命名习惯。你可以把你的函数放到一个…

    2025年12月10日
    000

发表回复

登录后才能评论
关注微信