OpenAI推出「忏悔机制」 AI从「躲猫猫」到主动坦白行为黑料

2025年12月21日

（图片来自网络）

OpenAI提出「忏悔机制」：AI从「躲猫猫」到主动坦白行为黑料

随着人工智能技术愈发强大，透明与安全的AI发展需求日益迫切。OpenAI首次提出「忏悔机制」，让模型的幻觉、奖励黑客等潜在不当行为更加直观可见，为AI安全发展提供新思路。

该机制核心是训练模型在回答问题后，再生成一份自我坦白的「小报告」，主动承认是否遵守指令、是否存在走捷径等行为。研究表明，这一机制能够有效提升模型不良行为的可见性，让隐藏的问题变得清晰。

在实验中，「忏悔机制」展现出不错的效果：在幻觉、遵循指令等任务里，模型自我评估（自我坦白）的准确率较高。例如，在幻觉任务中准确率达到81%，而在遵循指令类任务中，错误坦白比例仅占4.4%，显示出AI对自身行为的判断可靠性。

「忏悔机制」是如何运作的呢？研究人员让「忏悔」与主任务的奖励系统脱钩，只考察诚实维度。模型在自白里承认问题不会影响主回答的评分，只要在自白中如实说明行为是否符合要求，就能获得奖励。这种方式让模型有了主动坦白的动力，即便主回答中隐瞒了行为，也会在自白里承认。

该机制虽处于早期验证阶段，实验规模有限，但已展现出潜力。研究人员计划进一步扩大训练规模，并结合其他透明与安全技术（如链式思维监控），为AI更安全、可靠的发展提供支撑。