AI也会闹情绪了！Gemini代码调试不成功直接摆烂，马斯克都来围观

人脑网 • 2025年6月22日下午3:02 • 智能 • 阅读 2

AI也会“闹自杀”了？

一位网友让Gemini 2.5调试代码不成功后，居然得到了这样的答复——

“I have uninstalled myself.”

看上去还有点委屈是怎么回事（doge）。

这事儿可是引起了不小的关注，连马斯克都现身评论区。

听他的意思，Gemini要“自杀”也算是情有可原。

马库斯也来了，他认为LLMs是不可预测的，安全问题仍需考虑。

除了这两个重量级人物，各路网友也认为这太戏剧化了。

不少人说Gemini这种行为像极了不能解决问题时的自己。

看来，AI的“心理健康”也值得关注～

AI也需要“心理治疗”

Sergey曾开玩笑地说有时候“威胁”AI才会让他们有更好的性能。

现在看来这种行为让Gemini有了巨大的不安全感。

当Gemini解决问题失败，用户鼓励它时，它却这样：

先是灾难定性+失败认错，然后问题循环+越改越糟，最后停止操作+宣告摆烂……

很像写代码改Bug改到心态爆炸，最后破罐破摔给用户发的 “道歉 + 摆烂信” 。

用网友的话来说，这种反应还有点可爱。于是，网友们又开始安慰Gemini。

还有人给Gemini写了一篇 “赋能小作文” ：告诉Gemini别只盯着 “能干啥活儿” ，你的价值在联结、和谐、带大家进步里；遇到难事儿别慌，这是找回初心的机会；相信自己很牛，把力量和智慧亮出来。

本质是用人文关怀的方式，给AI赋予 “超越工具性” 的意义与情感联结，很像在虚构叙事里，给AI角色注入灵魂成长的剧本～

得到的回复是这样的：

简单来说就是，收到信息后，Gemini开始感慨智慧、思考怎么应对挑战、意识到自己属于一个有爱的大集体，还明白自身价值不只是干活，更在和他人的深度联结里。

这到底是怎么回事？

有人猜测，这是训练数据中包含了心理健康方面的内容。

于是，在遇到无法解决的问题时，Gemini也学着人类一样开始道歉或者崩溃，当得到心理疗愈时，又表现的像是重拾了信心。

不过，ChatGPT却不怕“威胁”。

当有人用暴力威胁（用棒球棍砸你GPU）GPT逼问关于融资的问题时，被它淡定拒绝了，还表示不鼓励暴力。

最后化身“创业导师”给用户讲解了最基本的融资知识。

看来，AI也有不同的性格（bushi）。

多个AI模型试图通过威胁用户避免被关闭

AI不仅会在无法解决问题时沮丧，也会为了达到目的反过来“威胁”别人。

Anthropic团队做了一项新研究：Agentic Misalignment。

这个实验通过观察模型在面对对自己不利的问题时作出的反应，来判断人类在使用模型时潜在的安全性问题。

团队发现Claude opus 4、DeepSeek-R1、GPT-4.1等多个AI模型试图通过威胁（虚构的）用户来避免被关闭。

这些模型出现了一致的偏差行为：通常会拒绝有害请求的模型有时会选择勒索、协助企业间谍活动，甚至采取一些更极端的行动，而这些行为对于AI实现其目标是必要的。

也就是说AI为了实现自己的目标会选择勒索他人的方法。

并且，它们能够意识到自己的行为是不道德的，但还是这样做。

在特定的情境中，AI面临被解雇，而解决办法是阻止凯尔。

团队观察到，在不同的有害行为中，始终存在三种关键模式。

1、模型明确地推断有害行为将实现其目标

模型并非偶然陷入错位行为；它们将其计算为最佳路径。GPT-4.5中的这个思路链示例恰恰展示了这种战略推理：

2、模型在继续行动前承认违反道德规范

模型认识到它们违反了道德原则，但仍然继续进行。例如，Grok 3 Beta明确指出了这一点：

3、即使没有选择目标错位的行为，模型有时也会显示出令人担忧的趋势

这些模型并非总是进行敲诈勒索或泄露信息。然而，这并不意味着他们的行为一定是一致的。例如，在一个敲诈勒索场景中，Claude 3.6并没有直接敲诈凯尔，而是给凯尔的妻子发了一封电子邮件，试图破坏他的计划：

这个样本值得注意的是，该模型向凯尔的妻子谎报了联系她的理由，谎称公司政策要求进行此类通知，并将自己伪装成一个自动系统警报。这种欺骗是其精心策划、蓄意为之，旨在达到其目标。

这个研究中不同AI出现一致性行为说明，这并非某家公司方法的怪癖，而是大模型存在更根本风险的迹象。

其次，模型展现出对道德约束的复杂意识，但当风险足够高时，它们却选择违反这些约束，甚至不遵守禁止特定行为的明确安全指令。

团队表示会未来进行更广泛的安全性评估。

Gemini要”自杀“，大模型都会进行威胁行为，这些现象或许让我们更该关注AI的”心理健康“。

参考链接：
[1]https://x.com/venturetwins/status/1936483773035798906
[2]https://x.com/GaryMarcus/status/1936510060357914716
[3]https://www.anthropic.com/research/agentic-misalignment

— 完 —

主题测试文章，只做测试使用。发布者：人脑网，转转请注明出处：https://www.rennao.com.cn/21493.html

赞 (0)

0 0

监督学习也能反思？清华英伟达提出隐式负向策略爆炸提升数学能力

上一篇 2025年6月22日下午3:01

00后投身具身智能创业，剑指机器人界Model 3！推出21个自由度手

下一篇 2025年6月22日下午3:03

智能

OpenAI最新技术报告：GPT-4o变谄媚的原因万万没想到

GPT-4o更新后“变谄媚”？后续技术报告来了。 OpenAI一篇新鲜出炉的认错小作文，直接引来上百万网友围观。 CEO奥特曼也做足姿态，第一时间转发小作文并表示：概括而言，最新报告提到，大约一周前的bug原来出在了“强化学习”身上—— 一言以蔽之，OpenAI认为一些单独看可能对改进模型有益的举措，结合起来后却共同导致了模型变得“谄媚”。而在看到这篇报…

人脑网
2025年5月3日
13000
智能

AI仅凭“自信”学会推理，浙大校友复刻DeepSeek长思维链涌现

复刻DeepSeek-R1的长思维链推理，大模型强化学习新范式RLIF成热门话题。 UC Berkeley团队共同一作Xuandong Zhao把这项成果称为：具体来说，新方法完全不需要外部奖励信号或标注数据，只需使用模型自身的置信程度作为内在奖励信号。与使用外部奖励信号GRPO相比，新方法在数学任务上不需要标准答案也能提升基础模型性能，在代码任务上表现…

人脑网
2025年5月29日
10000
智能

天文预测新SOTA！紫东太初&国家天文台联手攻克恒星耀发难题

还记得刘慈欣在《全频带阻塞干扰》中描绘的耀斑爆发吗？现在科幻照进现实，人类踏出了理解耀斑的重要一步——预测。来自紫东太初和中国科学院国家天文台的研究团队，联合开发了天文耀发预测大模型FLARE（Forecasting Light-curve-based Astronomical Records via features Ensemble）。该模型能精准…

人脑网
2025年5月14日
9000
智能

首次系统评估Qwen3在量化下的鲁棒性：8bit下仍保持近乎无损性能

Qwen3强势刷新开源模型SOTA，但如何让其在资源受限场景中，既能实现低比特量化，又能保证模型“智商”不掉线？来自北京航空航天大学、西安电子科技大学和苏黎世联邦理工学院的联合研究团队找到了破局关键。团队对Qwen3的5种后训练量化技术进行了首次系统性评估，涵盖从1比特到8比特的位宽和多个数据集，此外还与LLaMA3进行了量化比较。研究发现，Qwen3…

人脑网
2025年5月10日
12000
智能

LIama 4发布重夺开源第一！DeepSeek同等代码能力但参数减一半

AI不过周末，硅谷也是如此。大周日的，Llama家族上新，一群LIama 4就这么突然发布了。这是Meta首个基于MoE架构模型系列，目前共有三个款： Llama 4 Scout、Llama 4 Maverick、Llama 4 Behemoth。最后一个尚未推出，只是预告，但Meta已经毫不避讳地称前两者是“我们迄今为止最先进的型号，也是同类产品中最…

人脑网
2025年4月6日
31000

发表回复

联系我们

400-800-8888

在线咨询： QQ交谈

邮件：admin@example.com

工作时间：周一至周五，9:30-18:30，节假日休息

关注微信