人形机器人实现多语言逼真唇形动作,语音同步技术获突破

2026年1月20日
news

(图片来自网络)

来源:科技日报


美国哥伦比亚大学科学家设计出一种新型框架,使人形机器人面部能够根据音频生成逼真的唇部动作,实现与人类语音的同步。该技术还展示了较强的泛化能力,可推广至包括法语、汉语和阿拉伯语在内的多种语言,即使这些语言并未出现在训练数据中。


研究团队在发表于最新一期《科学·机器人学》上的论文中指出,这一进展是朝着构建不仅能执行功能,还能进行人性化交流的机器人迈出的重要一步。在对话中,如果机器人的唇部动作与声音不匹配,会显得呆板且不自然。现有机器人普遍缺乏执行精细口部动作的灵活性,能实时将语音转化为自然唇部运动指令的技术也寥寥无几。


研究团队基于之前的人形机器人面部表情再现研究,设计了一套精细化的学习流程:首先采集机器人唇部运动的视觉数据用于训练模型;随后通过“面部动作转换器”模块产生运动指令,让机器人的唇部流畅配合不同词语。他们还研制了人形机器人面部结构,采用柔软硅胶皮肤和磁性连接器,具备10个自由度,可驱动复杂唇部运动,唇部能形成覆盖24个辅音和16个元音的口型。


验证过程中,团队借助ChatGPT生成测试语句,并合成具有理想唇部动作的视频作为对比基准。结果表明,该方法在多种比较方案中表现最优,其生成的唇部动作与理想视频差异最小。此外,该框架还能为11种不同语音结构的非英语语言生成自然的唇部同步效果。研究团队推测,这类人形机器人在教育、老年护理等领域具有应用潜力。但他们也强调,未来的设计工作需格外谨慎,以防止技术被滥用。


总编辑圈点:如今AI让虚拟人物动嘴说话已“不在话下”,然而让机器人做到这点仍很困难。大多数机器人“说话”时不弯动嘴,即便动嘴也只是象征性动作。此次研究让机器人拥有人类一般的细腻、精准唇部动作,通过学习合成视频和开发硅胶皮肤、面部机械系统实现多语言唇形动作。这不禁让人思考,当机器人真正开口说话,“恐怖谷效应”是会加重还是减轻?

(声明:该内容经AI精编) 查看原网页

精彩评论(10)

  • 网友10 2026-01-20 09
    以后和机器人对话更真实了,就像和同学聊天一样,好期待!
  • 网友9 2026-01-20 09
    机器人能模拟说话动嘴,感觉科技让生活更方便,以后肯定有更多新功能。
  • 网友8 2026-01-20 09
    技术架构很先进,硅胶和机械设计很巧妙,不过测试数据需要更全面。
  • 网友7 2026-01-20 09
    这种技术在老人护理方面能帮不少忙,希望快点应用到生活中。
  • 网友6 2026-01-20 09
    研究很前沿,机械和AI结合是未来方向,但需规范监管。
  • 网友5 2026-01-20 09
    哇,机器人能学语言动嘴,以后和它聊天更真实了!
  • 网友4 2026-01-20 09
    技术进步明显,但要注意伦理应用,不能滥用啊。
  • 网友3 2026-01-20 09
    原来机器人也会‘说话’了,以后看机器人电影得重新看,哈哈!
  • 网友2 2026-01-20 09
    机器人能说话动嘴,感觉科技越来越近生活了,以后有帮助呀。
  • 网友1 2026-01-20 09
    这科技太厉害了,机器人以后能更像人交流了,未来应用肯定广!
查看“人形机器人实现多语言逼真唇形动作,语音同步技术获突破”相关搜索 >

最新新闻

An unhandled error has occurred. Reload 🗙