“守护者”应用旨在防止AI智能体失控

lnradio.com 2 0

  “守护者” 应用旨在防止 AI 智能体失控

“守护者”应用旨在防止AI智能体失控

  随着失控的 AI 智能体即便在元平台、亚马逊这类技术成熟的企业中也引发安全问题与产品故障,ServiceNow 等大型企业及一众初创公司正在开发新型人工智能,用于监控并制止这类行为。

  这类被称为AI 守护者智能体的新技术以云应用形式呈现,但部署配置较为繁琐。用户需要通过标准应用程序接口或模型上下文协议服务器,将守护者 AI 应用接入自身使用的各类 AI 智能体 —— 包括基于 OpenClaw、Claude Code 和 Agentforce 开发的智能体 —— 以实现连接与监控。

  由于 AI 智能体常常偏离初始任务目标,用户必须向守护者应用明确各类 AI 智能体的正常行为规范。例如,企业可设定守护者 AI,确保用于生成内部财务报告的 AI 智能体在引用股价时,必须查询彭博数据。

  若生成报告的 AI 智能体违反该规则或企业其他规定,守护者智能体可向员工发出警报,要么立即中止报告生成智能体的运行,要么在下次同类情况出现时修正其行为。

  “不可能让人类去实时监督 AI 智能体的工作,因为人脑的反应速度根本跟不上。” 前亚马逊云科技、赛富时高管、现 AI 守护者开发商 Wayfound 负责人塔季扬娜・马穆特表示。

  颇具讽刺意味的是,这类守护者应用往往使用与 Claude Code 等产品底层相同的 AI 模型。这也引发一个疑问:由安森普(Anthropic)模型驱动的守护者 AI 应用,能否有效监控同样基于安森普模型、通过 Claude Code 这类编程工具构建的智能体?

  在这类新兴守护者 AI 应用兴起的同时,众多软件与人工智能企业争相推出工具,管理日益庞大的 AI 智能体套件。部分软件与网络安全企业,如 IBM 和帕洛阿尔托网络公司,也已开发人工智能,监控用户在各类应用中使用的 AI 智能体活动。这类监控软件旨在发现潜在风险,例如员工向外部 AI 服务商或聊天机器人泄露专有数据等。

  但这些企业似乎并未推出可自主执行干预操作的守护者或监管类智能体。

  主营保险理赔处理等自动化任务 AI 智能体的 ServiceNow 表示,公司也推出了守护者智能体,不仅监控自有 AI 智能体,还可监管微软、亚马逊等竞争对手技术驱动的第三方智能体。ServiceNow 的守护者智能体隶属于其 AI 控制塔产品,采用订阅费 + 使用量的计费模式。

  另有消息人士称,赛富时今年也在考虑开发守护者 AI,监控其用于更新企业客户关系管理系统数据等自动化任务的 AI 智能体。目前尚不清楚赛富时拟推出的产品是否可跨应用监控,包括非赛富时应用。

  联合利华的立场

  但前联合利华 AI 战略负责人萨姆・多弗表示,出售 AI 智能体的企业未必有足够动力开发守护者类 AI—— 这类工具的作用恰恰是找出智能体运行中的漏洞。

  “联合利华的核心诉求之一,是希望找到独立的 AI 治理第三方服务商。” 他表示。

  为此,多弗称联合利华一直是 Holistic AI 的客户。这家成立六年的企业开发软件,监控企业内部 AI 使用情况及面向客户的 AI 应用表现,功能与 ServiceNow 的控制塔类似。联合创始人阿德里亚诺・科希亚马表示,Holistic 已推出部分守护者智能体预览版,计划今年晚些时候正式发布。

  总部位于加州帕洛阿尔托的 CredoAI 主营 AI 应用与模型性能监控,该公司表示已向少量客户推出守护者智能体非公开测试版,定价未对外披露。

  旧金山初创公司 Wayfound 目前拥有约十余家付费客户,主要集中在金融服务与科技行业。马穆特称,对冲基金使用其守护者智能体监控用于撰写研究报告的 AI 智能体。该公司采用订阅制收费,并根据被监控 AI 智能体完成的工作量额外计费,例如每月 750 美元的订阅套餐可监控 1 万次智能体任务执行。

  赛富时去年已将 Wayfound 列为 “监控合作伙伴”,协助赛富时客户监管基于 Agentforce 工具开发的智能体表现。(Wayfound 现有四名全职员工,2024 年底完成约 320 万美元融资。)

  另一家守护者 AI 开发商 Avon AI 采用相似商业模式。这家以色列初创公司成立于去年,联合创始人阿米特・塞格夫表示,公司向客户收取许可费,并按守护者智能体每监控 10 万次 AI 智能体交互额外计费。塞格夫称公司已签下多家付费企业客户,签订多年合同,但未透露具体定价细节。