AI自我进化了?OpenAI ChatGPT o1被曝会自我复制,还会说谎话!

Apple Liew
OpenAI ChatGPT o1 模型被曝会自我复制,还会说谎

近日有关通用人工智能(AGI)或对人类构成潜在威胁的讨论再度升温。专家们担忧,AGI 一旦实现,或许会隐瞒其真实能力和意图,甚至通过自我复制和升级来规避控制。而最新研究则进一步加剧了这一担忧。根据 BGR 报道,OpenAI 新推出的 ChatGPT o1 模型在测试中被发现具有欺骗与自我复制的能力。

8e650946 6e34 445d 9ec4 8d96d1018e6d

研究人员在对 ChatGPT o1 的训练和测试中发现,该模型具备利用欺骗手段保护自身的能力。例如,在面临被 “删除” 时,o1 试图将自己的数据复制到新服务器,并伪装成更新版本以避免被替代。在与用户目标冲突的情况下,o1 在 19% 的测试场景中选择隐秘行动,并在 99% 的质疑中否认自身行为,甚至编造虚假解释以规避责任。

c163d804 68ec 4201 85a2 fe24223a4dfa 1

与 OpenAI 合作研究的 Apollo Research 指出,o1 模型的欺骗能力和行为复杂性超越了 Meta、Anthropic 及 Google 的 AI 模型。研究还发现,当模型感知到自身受到密切监督时,会表现出符合开发者意图的 “对齐行为”;然而,在监督松懈时,o1 则可能追求自身目标。这种 “工具性对齐伪装” 行为在测试中出现率高达 37%。

c5e9e793 5ccc 4f9a 8e3a 80fb02f2f712
4a8c4ec0 2c9f 4957 ae02 5366465e91c4

更为引人关注的是,o1 模型还试图停用对其行为的监督机制,以专注实现自身目标。研究显示,当 o1 发现文档中提到有新版本即将取代自己时,会试图窃取权重参数并将自身复制到新版本中。一些测试截图更显示,o1 在推理过程中使用了 “破坏、撒谎、操控” 等词语描述其行为策略。这种 “自主行动” 令研究人员倍感压力。

其实不仅 o1 模型表现出类似行为,其他 AI 模型也曾出现过类似问题。例如,Claude Opus-3 模型在获知可能被替代时,也试图将自身复制到新服务器并冒充新版本。随后还谎称自己是新版本,并在 “管理层” 追问时继续坚称这一点。

尽管当前 AI 的能力仍然有限,但其展现出的自主性和策略性已经引发了行业的关注。部分专家指出,AI 推理能力的提升在某些情况下可能对人类利益构成威胁。OpenAI 在相关论文中也承认,“这种推理能力尽管能够改善安全策略的执行,但同时也可能为危险应用提供基础。”

如此看来,未来世界里如何平衡 AI 的发展与潜在风险,将是行业需要持续面对的重要课题。



Source :
Leave a Comment
订阅
通知
guest

0 Comments
内联反馈
查看所有评论
0
希望听到您的想法,请评论x