大模型给自己当裁判并不靠谱！上交揭示LLM-as-a-judge机制缺陷

2025年8月17日

（图片来自网络）

大语言模型（LLM）正尝试履行“裁判”职责，评判由AI生成的内容，但上海交通大学的研究揭示这一“LLM-as-a-judge”机制存在严重缺陷。

研究团队构建PersonaEval全新基准测试，核心任务是让模型识别对话说话者。测试结果显示，即便表现最好的模型Gemini-2.5-pro，准确率也仅为68.8%，而人类实验组的平均准确率为90.8%。

关键缺陷暴露：顶尖LLM（如DeepSeek-R1）在判断角色身份时，过度关注表层语言风格，忽略真实的对话意图和上下文信息。举例来说，当角色庄颜与“罗辑”对话时，LLM会错误认为对话者是“史强”，而人类可通过上下文线索直接判断。

论文指出，LLM的智能源于模式匹配，而人类判断则依赖上下文感知。为解决这一问题，需强化模型推理能力而非单纯灌输角色知识。研究还显示，为推理任务优化的模型（如DeepSeek-R1）在测试中表现更优。

该研究不仅为我们提供了评估工具，更推动重新思考如何构建与人类判断力对齐的AI系统。未来研究方向将聚焦于分析模型错误判断的思考路径，开发更有效的推理导向提升方法。