七年后方明：李彦宏早提AI数据训练规律

2025年9月19日

（图片来自网络）

近期，估值超1800亿美元的AI厂商Anthropic调整政策，引发行业关注。其旗下Claude系列产品将个人用户对话和互动数据默认用于模型训练，除非用户手动拒绝。这一政策变动不仅是技术调整，更暴露了AI行业隐藏的数据使用逻辑。

对比行业其他企业，类似政策并非Anthropic独有。早在2023年，OpenAI等主流AI厂商已开始调整用户数据使用规则，低付费或免费用户若不主动拒绝，其对话数据可能被用于模型训练。这成为当前AI行业普遍遵循的通用标准。

李彦宏七年前就点明过这一规律。他曾在公开言论中表示，若用户愿意以隐私换便捷性，企业可利用数据优化服务。这番话在当时引发争议，如今看来，他早已预判到AI行业依赖用户数据训练的趋势，如今多家企业政策调整，恰好印证了这番判断。

从政策调整看，无论是海外（如Anthropic、OpenAI）还是国内大模型厂商，都在践行“要么付费，要么交数据”的模式。国产大模型虽在数据隐私合规性上略有差异，但大多通过用户协议完成授权动作，用户可自主选择是否授权数据用于训练与优化，但部分厂商撤回授权方式不够便捷。

AI行业为何选择这一模式？核心原因是训练优质数据短缺，而用户真实互动数据是最优质训练资料。大模型用户的活动数据，本身就是对模型基准值的调校与标注，是“既能用又能优化”的优质“食粮”。

不过，数据隐私风险也不容忽视。AI算法本身能保护隐私，但员工失误可能导致数据泄露。近期有多起AI产品因员工操作失误，导致用户对话记录被公开的事件，凸显了数据安全的隐患。同时，爬虫抓取的公开数据质量参差不齐，也影响模型训练效果，这使得AI企业不得不依赖用户数据。

真人数据对AI训练至关重要。研究证实，用生成数据训练会导致模型崩溃，而真实人类创造的数据是AI优化的必要资源。因此，AI企业调整用户数据使用政策，实属无奈之举，用户在享受智能服务时，也需适当让渡部分隐私权限以支持技术发展。