人形机器人实现多语言逼真唇形动作,语音同步技术获突破
(图片来自网络)
来源:科技日报
美国哥伦比亚大学科学家设计出一种新型框架,使人形机器人面部能够根据音频生成逼真的唇部动作,实现与人类语音的同步。该技术还展示了较强的泛化能力,可推广至包括法语、汉语和阿拉伯语在内的多种语言,即使这些语言并未出现在训练数据中。
研究团队在发表于最新一期《科学·机器人学》上的论文中指出,这一进展是朝着构建不仅能执行功能,还能进行人性化交流的机器人迈出的重要一步。在对话中,如果机器人的唇部动作与声音不匹配,会显得呆板且不自然。现有机器人普遍缺乏执行精细口部动作的灵活性,能实时将语音转化为自然唇部运动指令的技术也寥寥无几。
研究团队基于之前的人形机器人面部表情再现研究,设计了一套精细化的学习流程:首先采集机器人唇部运动的视觉数据用于训练模型;随后通过“面部动作转换器”模块产生运动指令,让机器人的唇部流畅配合不同词语。他们还研制了人形机器人面部结构,采用柔软硅胶皮肤和磁性连接器,具备10个自由度,可驱动复杂唇部运动,唇部能形成覆盖24个辅音和16个元音的口型。
验证过程中,团队借助ChatGPT生成测试语句,并合成具有理想唇部动作的视频作为对比基准。结果表明,该方法在多种比较方案中表现最优,其生成的唇部动作与理想视频差异最小。此外,该框架还能为11种不同语音结构的非英语语言生成自然的唇部同步效果。研究团队推测,这类人形机器人在教育、老年护理等领域具有应用潜力。但他们也强调,未来的设计工作需格外谨慎,以防止技术被滥用。
总编辑圈点:如今AI让虚拟人物动嘴说话已“不在话下”,然而让机器人做到这点仍很困难。大多数机器人“说话”时不弯动嘴,即便动嘴也只是象征性动作。此次研究让机器人拥有人类一般的细腻、精准唇部动作,通过学习合成视频和开发硅胶皮肤、面部机械系统实现多语言唇形动作。这不禁让人思考,当机器人真正开口说话,“恐怖谷效应”是会加重还是减轻?
最新新闻
- 2026年1月28日:昨日社会热门资讯汇总-早报速览(2026-01-28)
- 2026年1月28日:昨日文化热门资讯汇总-早报速览(2026-01-28)
- 2026年1月28日:昨日科技热门资讯汇总-早报速览(2026-01-28)
- 2026年1月28日:昨日体育热门资讯汇总-早报速览(2026-01-28)
- 2026年1月28日:昨日娱乐热门资讯汇总-早报速览(2026-01-28)
- 2026年1月28日:昨日财经热门资讯汇总-早报速览(2026-01-28)
- 2026年1月28日:昨日教育热门资讯汇总-早报速览(2026-01-28)
- 2026年1月28日:昨日汽车热门资讯汇总-早报速览(2026-01-28)
- 2026年1月28日:迈阿密国际新援雷吉隆右膝关节受伤 归期待定
- 2026年1月28日:阿森纳联赛阶段11连胜仅丢4球 本赛季前7场率先破门
- 2026年1月28日:交通运输部加强春运公路水路服务保障 推出保畅组合拳
- 2026年1月28日:凡人微光|冰雪热潮中的平凡热爱故事
- 2026年1月28日:冰雪产业焕新:冷资源变热经济,打造全年发展‘旺火’
- 2026年1月28日:2025中国经济关键词:潜力释放 激活超大规模市场优势
- 2026年1月28日:大转折!2025年制造业利润大幅回升,反“内卷”改善价格预期
- 2026年1月28日:2026年中国外贸发展方向:从关键词看新布局
- 2026年1月28日:金沙江鱼儿回家之路:隧洞刷脸、电梯通行,生态保护见成效
- 2026年1月28日:走进“冰雪热”幕后:吉林省冰雪经济背后的劳动者故事
- 2026年1月28日:非洲留学生“小米”变身长沙经贸“纽带”,用直播架起中非经贸之桥
- 2026年1月28日:“一降一增”见证中国外贸破局前行

精彩评论(10)