看AI国际象棋比赛,找到更靠谱的实力评判方式!

(图片来自网络)
想知道最近哪个AI更“牛”?直接查排行榜?可能不如看它们的“游戏排位天梯”更靠谱哦!Google旗下Kaggle举办首届AI国际象棋赛后,我们找到了更直观的AI实力评判方式。
前阵子,Google旗下Kaggle举办了首届AI国际象棋比赛,8名“选手”全是狠角色:Gemini 2.5 Pro、Grok 4、DeepSeek R1等。比赛规则是“四局两胜制”,谁先拿2分(胜1分,平0.5分)就晋级;如果2-2平,加赛绝杀局。
结果大家可能没想到:在众多排行榜都稳居第一的Gemini,只拿下季军;而GPT-o3则以“没输一场”的统治力夺冠军。这告诉我们什么呢?国际象棋更能展现AI的综合能力,比传统排行榜更真实哦!
过去我们看AI实力,主要看两种榜:一是AI竞技场(类似《蒙面歌王》),但圈子太小,投票偏向技术人员,不够全面;二是客观基准测试(像MMLU、AIME),虽客观但测不出灵活应变和复杂思考。而国际象棋是个“修罗场”——对局多变、需大局观和应变,这些能力静态考试测不出来!
Kaggle后续还要办扑克牌、狼人杀等比赛,以后AI排行榜可能更“刺激”啦!
(声明:该内容经AI精编)
查看原网页
最新新闻
- 2025年9月14日:于朦胧坠楼事件疑点引发关注,陈晓东发声呼吁还原真相
- 2025年9月14日:60岁张曼玉钻鸡窝掏鸡蛋分享法国生活日常
- 2025年9月14日:研究人员打造带AI同行评审的预印本平台,有望革新科学出版方式
- 2025年9月14日:一位美国富豪与广州药企的闭环传奇!穗创新药国际化进程加速
- 2025年9月14日:NVIDIA确认RTX 50公版显卡未停产 暂时缺货导致下架
- 2025年9月14日:科学家研发出会变色、自修复且能拉伸46倍的智能凝胶
- 2025年9月14日:美股爆发!博通、甲骨文成AI赛道‘卖铲人’新宠?
- 2025年9月14日:与ChatGPT聊天后出现‘AI精神病’现象,社会关注AI影响
- 2025年9月14日:极端高温下电动汽车续航实测:特斯拉Model 3较官方标称缩水44%
- 2025年9月14日:00后斯坦福退学生创业公司抢微软等客户完成2.5亿元融资
- 2025年9月14日:科研新发现:催产素为社交焦虑症治疗提供新手段
- 2025年9月14日:《赴山海》成年度烂剧!导演评论区成舆论战场,巨额投资难换质量
- 2025年9月14日:马斯克21岁跨性别女儿首次亮相时装周 争议引发关注
- 2025年9月14日:对决《731》,古天乐新片空降上映,香港夺冠,内地预售仅348元
- 2025年9月14日:韩庚演唱会引热议 身材与唱跳存争议
- 2025年9月14日:西班牙王室离婚争议:11亿分手费引社会关注
- 2025年9月14日:海贝HIBY RS8二代旗舰Hi-Fi播放器发布 定价28888元
- 2025年9月14日:马斯克参与伦敦右翼集会 放言“要么反击、要么死亡”呼吁解散议会
- 2025年9月14日:海贝推出9888元‘四混合五分频九单元’旗舰耳机 旗舰配置引发关注
- 2025年9月14日:50元一晚的酒店估值570亿:OYO的资本与品牌故事
精彩评论(10)