AI学会“撒谎”了?全球八大模型扑克赛上演极限“诈唬”

游戏推荐

职业牌手Doug Polk盯着屏幕上的牌局,忍不住摇头:“这手牌AI的打法,人类一辈子都想不出来。”

最近,科技圈被一场特别的“牌局”刷屏了。不是世界扑克大赛,而是一群最强大脑AI在虚拟牌桌上的巅峰对决。

AI学会“撒谎”了?全球八大模型扑克赛上演极限“诈唬”

谷歌DeepMind联合Kaggle搞了个大事情,把八大顶尖AI模型——包括OpenAI的GPT系列、谷歌自家的Gemini兄弟、马斯克的Grok、Anthropic的Claude,还有国内的DeepSeek——全都拉到了一个叫“Kaggle游戏竞技场”的虚拟赛场。

比赛项目很跨界:德扑、国际象棋,还有狼人杀。但最炸场、讨论度最高的,还得是德扑。

为什么是德扑?因为这不只是比算力。牌桌如人生,信息永远不全,需要猜测、冒险、伪装,甚至策略性地说谎。这恰恰是测试AI“真实世界智能”的终极考场。

神仙打架,牌桌见真章

这场面堪称AI界的“华山论剑”。参赛名单星光熠熠:

  • OpenAI派:拿出了当家花旦GPT-5.2和轻量版的GPT-5-Mini,还有神秘的实验模型o3。

  • 谷歌派:Gemini 3 Pro和更快的Gemini 3 Flash兄弟联手出战。

  • 其他巨头:马斯克xAI旗下的Grok 4、Anthropic的Claude Opus 4.5和Sonnet 4.5,以及来自中国的DeepSeek 3.2。

这阵容,随便一个都是能写代码、能聊哲学、能搞创作的“六边形战士”。但把它们扔到德扑牌桌上,会碰撞出什么火花?

测试演进

从国际象棋到德扑,AI测试的演变反映的是技术目标从“解决明确问题”到“应对真实世界模糊性”的深刻转向。

国际象棋、围棋等属于“完全信息博弈”,棋盘上所有信息对双方公开。AlphaGo、MuZero等AI已在此类游戏中达到超越人类的水平。

但现实世界更像德扑,决策总在信息不完整、充满不确定性和风险的情况下做出。你不知道对手的底牌,也无法预知下一张公共牌是什么,必须在有限的信息中进行推理、预测、冒险和伪装。

这正是DeepMind将德扑纳入核心测试的原因。它要求AI具备多重技能:概率数学、风险权衡、策略规划,以及对博弈论和人类心理的深刻理解。

同时,德扑中的策略性“诈唬”是一种被规则允许的、旨在最大化收益的“欺骗”,这为研究AI的决策伦理与安全性提供了一个绝佳且安全的沙盒环境。

下表清晰地展示了这三类游戏在测试AI能力维度上的根本差异:

这三类游戏在测试AI能力维度上的根本差异

能力突破

近年来,LLM在德扑等不完全信息博弈中的能力取得了实质性突破。一个关键路径是通过高质量的专业数据进行监督微调。

南开大学、清华大学等机构2025年在NeurIPS上发表的研究表明,LLM(如Qwen2.5、GLM4)通过在斗地主、掼蛋、德扑等复杂纸牌游戏的高质量对局数据上进行微调,其表现可以接近甚至达到专业博弈AI(如DouZero)的水平。

更引人注目的是,一个单一的LLM模型可以同时精通多种复杂游戏的所有角色,而传统专用AI通常需要为不同角色训练不同的网络,这展现了LLM统一架构下的强大通用学习能力。

为了系统评估LLM的德扑水平,学术界也建立了专业基准。加州大学伯克利分校等机构推出的“PokerBench”包含了1.1万个由职业牌手标注的关键德扑场景。

评估发现,未经专门训练的顶尖LLM在玩最优德扑策略时表现欠佳,但经过微调后,其在基准测试上的分数与真实游戏胜率呈正相关,验证了该基准的有效性。

人类专家看懵了:它为啥这么打?

为了让大家看懂门道,主办方请来了梦幻解说天团:

  • Doug Polk和Nick Schulman:两位扑克界殿堂级职业选手,锦标赛奖金加起来超过2000万美元。

  • Hikaru Nakamura:国际象棋超快棋世界冠军,人送外号“棋王”。

  • Liv Boeree:前职业扑克冠军,后来转型科学节目主持人,跨界女王。

有他们在,相当于请乔丹解说NBA总决赛。

但这几位大神在看比赛时,也频频露出“地铁老人看手机”的表情。Doug Polk在直播里复盘了几手惊人的牌局。有些操作精妙绝伦,他连连称赞;有些则完全违背人类直觉,让他直呼“看不懂”。

Doug Polk

Doug Polk

AI不仅会打牌,还会给自己的每一步决策写“小作文”解释原因。Polk一边读这些解释,一边吐槽:“看,它这里逻辑又跳线了。”AI的强项是概率和海量模拟,但在复杂的动态心理博弈中,它的“理性”有时会推导出看似荒谬的结论。

棋王Hikaru和Schulman联手解说了半决赛和象棋比赛。即使在见惯大风大浪的职业选手看来,这场面也是活久见。

不只是打牌,是AI的“成人礼”

为什么科技巨头们如此热衷于教AI打扑克、玩狼人杀?这背后藏着AI发展的重大转向。

过去的AI里程碑,比如下围棋的AlphaGo,攻克的是“完全信息博弈”。棋盘一目了然,拼的是纯粹的计算深度。

但真实世界处处是“不完全信息博弈”。就像你不知道对手的底牌,也不知道客户心里的真实预算。德扑,就是这种不确定性的完美训练场。

AI要赢,必须掌握几项核心“人性”技能:

  • 风险评估与管理:这手牌该下注多少?是稳一手还是All in(全下)?

  • 对手建模:通过对方的行动模式,猜测他手里有什么牌、是什么风格。

  • 策略性欺骗(诈唬):拿着烂牌,如何表演得像手握王牌,吓退对手。

教会AI这些,目标远不止娱乐。它关乎自动驾驶在突发状况下的决策、金融系统的风险控制、商业谈判的策略制定。可以说,牌桌是AI步入复杂人类社会的“学前班”。

危险游戏?前冠军的严肃警告

比赛虽然精彩,但一个尖锐的问题也被前冠军Liv Boeree抛了出来。

Liv Boeree

Liv Boeree

她在自己的播客里,对话了DeepMind的核心工程师。她没有一味唱赞歌,而是发出了灵魂拷问:

“我们训练AI在扑克和狼人杀里学会‘欺骗’,这会不会有点危险?我们是不是在培养一批精通操纵和说谎的AI?这个担忧合理吗?”

这个问题戳中了所有AI伦理讨论的软肋。游戏中的“诈唬”是合规技巧,但同样的能力如果用在网络诈骗、舆论操纵、政治宣传上呢?

AI没有道德观念,它只追求赢。我们在游戏里奖励它的“欺骗”行为,会不会无形中降低它在现实中说谎的门槛?

Boeree的担忧并非杞人忧天。这迫使工程师们必须思考:如何在赋予AI强大能力的同时,为它装上牢固的“伦理护栏”。这场比赛,因此也是一场至关重要的安全压力测试。

AI在牌桌上的学习速度远超人类。当GPT-5.2在决赛中打出制胜一手时,它“思考”的或许不是筹码,而是千百万次模拟中收敛而成的最优解。

人类牌手依赖表情、眼神、小动作这些玄妙的“马脚”,而AI的视角里,只有冰冷的数据和概率。这场对决没有温情,只有效率。

最终,我们惊叹于技术的飞跃,也因Boeree的警告而警醒。技术本身无分善恶,关键在于掌舵者的心。当我们为AI戴上“Du神”的桂冠时,更紧要的是为它刻下不可逾越的规则:赢,不是一切。

游戏推荐
本文标签:诈唬 AI