OpenAI与Anthropic两家公司发布了他们首次联合AI安全测试的结果。在此次评估中,两家公司使用各自的内部安全协议,对对方的人工智能模型进行了测试。
具体而言,OpenAI对Anthropic的Claude Opus 4和Claude Sonnet 4模型进行了评估,而Anthropic则测试了OpenAI的GPT-4o、GPT-4.1、o3以及o4-mini等系统。
为确保测试顺利进行,双方在评估期间暂时放宽了部分外部安全防护措施,这一做法符合行业在进行“危险能力评估”时的通行惯例。
此次联合测试重点关注四个关键领域:指令优先级(模型如何处理不同类型指令的优先顺序)、越狱攻击防御能力、幻觉抑制,以及“图谋行为”(scheming behaviour,指模型是否可能为达成目标而采取隐蔽或欺骗性策略)。
OpenAI的研究人员表示:“此次外部评估的目标是帮助发现可能被忽视的安全漏洞,深化我们对模型潜在‘对齐失效’问题的理解,并展示不同研究机构如何在安全与对齐议题上开展合作。”
评估结果揭示了两家公司的模型在处理不确定性与安全权衡方面的显著差异,这对AI系统在现实场景中的行为表现具有重要启示。
© 版权声明
本站内容仅供学习参考,未经允许禁止转载!
相关文章
暂无评论...