BBC等机构研究显示AI新闻总结表现差异谷歌Gemini错误比例高于其他系统

2025年10月24日

（图片来自网络）

欧洲广播联盟（EBU）与BBC近期联合开展研究，评估ChatGPT、Gemini、Perplexity等多款生成式AI系统在新闻摘要方面的表现。

研究背景源于约15%的25岁以下年轻人主要通过AI获取新闻。BBC先通过大规模问卷调查、六场焦点小组访谈收集公众对AI新闻工具的使用体验与看法，随后EBU扩展至国际范围。

结果显示：约42%的英国成年人信任AI内容准确性，年轻群体信任度更高；但84%的受访者认为，若出现事实性错误，会严重削弱对AI的信任。

Gemini成“表现异类”：各模型整体表现差距不大，但谷歌Gemini错误数量最多、严重错误比例也远高于其他系统。

Gemini问题主要包括：缺乏清晰资料来源链接、难区分可靠与讽刺内容、过度依赖维基百科、语境不足、错误引用原文等。

六个月研究周期内，各系统新闻摘要准确率普遍提升，Gemini的进步尤为明显。但即便如此，Gemini的表现仍明显落后于其他系统。尽管AI新闻总结技术有进步，但其准确性仍需提升。

BBC等机构研究显示AI新闻总结表现差异 谷歌Gemini错误比例高于其他系统