看AI国际象棋比赛，找到更靠谱的实力评判方式！

2025年8月17日

（图片来自网络）

想知道最近哪个AI更“牛”？直接查排行榜？可能不如看它们的“游戏排位天梯”更靠谱哦！Google旗下Kaggle举办首届AI国际象棋赛后，我们找到了更直观的AI实力评判方式。

前阵子，Google旗下Kaggle举办了首届AI国际象棋比赛，8名“选手”全是狠角色：Gemini 2.5 Pro、Grok 4、DeepSeek R1等。比赛规则是“四局两胜制”，谁先拿2分（胜1分，平0.5分）就晋级；如果2-2平，加赛绝杀局。

结果大家可能没想到：在众多排行榜都稳居第一的Gemini，只拿下季军；而GPT-o3则以“没输一场”的统治力夺冠军。这告诉我们什么呢？国际象棋更能展现AI的综合能力，比传统排行榜更真实哦！

过去我们看AI实力，主要看两种榜：一是AI竞技场（类似《蒙面歌王》），但圈子太小，投票偏向技术人员，不够全面；二是客观基准测试（像MMLU、AIME），虽客观但测不出灵活应变和复杂思考。而国际象棋是个“修罗场”——对局多变、需大局观和应变，这些能力静态考试测不出来！

Kaggle后续还要办扑克牌、狼人杀等比赛，以后AI排行榜可能更“刺激”啦！