人形机器人实现多语言逼真唇形动作，语音同步技术获突破

2026年1月20日

（图片来自网络）

来源：科技日报

美国哥伦比亚大学科学家设计出一种新型框架，使人形机器人面部能够根据音频生成逼真的唇部动作，实现与人类语音的同步。该技术还展示了较强的泛化能力，可推广至包括法语、汉语和阿拉伯语在内的多种语言，即使这些语言并未出现在训练数据中。

研究团队在发表于最新一期《科学·机器人学》上的论文中指出，这一进展是朝着构建不仅能执行功能，还能进行人性化交流的机器人迈出的重要一步。在对话中，如果机器人的唇部动作与声音不匹配，会显得呆板且不自然。现有机器人普遍缺乏执行精细口部动作的灵活性，能实时将语音转化为自然唇部运动指令的技术也寥寥无几。

研究团队基于之前的人形机器人面部表情再现研究，设计了一套精细化的学习流程：首先采集机器人唇部运动的视觉数据用于训练模型；随后通过“面部动作转换器”模块产生运动指令，让机器人的唇部流畅配合不同词语。他们还研制了人形机器人面部结构，采用柔软硅胶皮肤和磁性连接器，具备10个自由度，可驱动复杂唇部运动，唇部能形成覆盖24个辅音和16个元音的口型。

验证过程中，团队借助ChatGPT生成测试语句，并合成具有理想唇部动作的视频作为对比基准。结果表明，该方法在多种比较方案中表现最优，其生成的唇部动作与理想视频差异最小。此外，该框架还能为11种不同语音结构的非英语语言生成自然的唇部同步效果。研究团队推测，这类人形机器人在教育、老年护理等领域具有应用潜力。但他们也强调，未来的设计工作需格外谨慎，以防止技术被滥用。

总编辑圈点：如今AI让虚拟人物动嘴说话已“不在话下”，然而让机器人做到这点仍很困难。大多数机器人“说话”时不弯动嘴，即便动嘴也只是象征性动作。此次研究让机器人拥有人类一般的细腻、精准唇部动作，通过学习合成视频和开发硅胶皮肤、面部机械系统实现多语言唇形动作。这不禁让人思考，当机器人真正开口说话，“恐怖谷效应”是会加重还是减轻？

（声明：该内容经AI精编）查看原网页

精彩评论（10）

网友10 2026-01-20 09

以后和机器人对话更真实了，就像和同学聊天一样，好期待！
网友9 2026-01-20 09

机器人能模拟说话动嘴，感觉科技让生活更方便，以后肯定有更多新功能。
网友8 2026-01-20 09

技术架构很先进，硅胶和机械设计很巧妙，不过测试数据需要更全面。
网友7 2026-01-20 09

这种技术在老人护理方面能帮不少忙，希望快点应用到生活中。
网友6 2026-01-20 09

研究很前沿，机械和AI结合是未来方向，但需规范监管。
网友5 2026-01-20 09

哇，机器人能学语言动嘴，以后和它聊天更真实了！
网友4 2026-01-20 09

技术进步明显，但要注意伦理应用，不能滥用啊。
网友3 2026-01-20 09

原来机器人也会‘说话’了，以后看机器人电影得重新看，哈哈！
网友2 2026-01-20 09

机器人能说话动嘴，感觉科技越来越近生活了，以后有帮助呀。
网友1 2026-01-20 09

这科技太厉害了，机器人以后能更像人交流了，未来应用肯定广！

查看“人形机器人实现多语言逼真唇形动作，语音同步技术获突破”相关搜索 >

人形机器人实现多语言逼真唇形动作，语音同步技术获突破

精彩评论（10）

最新新闻