比Transformer更强的架构来了?浙大新作Translution,一统卷积和自注意力

2025年10月23日
news

(图片来自网络)

新智元报道编辑:KingHZ【新智元导读】融合Self-attention和Convolution两大核心机制,Translution以统一的框架重新审视深度神经网络的本质,为下一代神经网络提供了新的可能。


自2017年Transformer模型提出以来,Self-attention机制凭借其强大的建模能力,逐渐成为深度学习领域的核心操作。然而,随着人工智能模型的规模不断扩张,单纯依靠「堆参数、堆数据」提升性能的模式正逐渐遇到瓶颈。面对大模型训练代价高昂、性能增长趋缓等挑战,学术界和产业界亟需新的网络架构创新。


近日,浙江大学范鹤鹤、杨易、新加坡国立大学Mohan Kankanhalli、浙江大学吴飞四位老师提出具有划时代意义的神经网络基础操作——Translution。该研究认为,神经网络对某种类型数据建模的本质,是:1)为某一数据元素寻找相关元素或区域;2)对相关元素形成的区域进行有效编码,获取该区域真正内在结构的表征。据此,Translution实现了Self-Attention与Convolution的有机融合与统一,构建出更具普适性的神经计算机制。


Translution的核心思想与实现


Self-Attention与Convolution的统一:图1展示了Convolution与Self-attention的差异。Convolution在捕获关联区域时较为「死板」,而Self-attention可自适应捕捉关联区域。两种机制各有优势,却也始终割裂。Translution的出现,正是为了弥合这一鸿沟。通过为相对偏移分配独立参数矩阵,Translution在计算时引入方向性和相对位置信息,成为两种机制的特例。


表1:Translution对Self-Attention与Convolution的统一。Self-Attention和Convolution可分别看作Translution的特例。


α-Translution:轻量化版本:由于Translution参数量庞大,提出了轻量化版本α-Translution。通过低秩编码压缩参数,α-Translution在性能与可训练性间找到平衡,成为硬件条件下的过渡方案。


实验结果:在计算机视觉和自然语言任务中,Translution及其轻量化版本均显著优于传统Self-attention架构,展现对位置变化的强适应性与泛化性。


结论:Translution不仅是一项技术创新,更是一次对深度神经网络本质的重新思考,为新一代神经网络发展开辟新方向,为人工智能未来注入活力。

(声明:该内容经AI精编) 查看原网页

精彩评论(10)

  • 网友10 2025-10-23 03
    浙江大学又搞出厉害的技术,以后科技发展会更快,感觉很有希望。
  • 网友9 2025-10-23 03
    统一自注意力和卷积,未来模型会更灵活,期待看到实际应用。
  • 网友8 2025-10-23 03
    为神经网络发展提供新思路,对人工智能的未来很有帮助。
  • 网友7 2025-10-23 03
    原来Transformer还有之后?Translution这个命名也很有创意,技术上有进步。
  • 网友6 2025-10-23 03
    通过实验对比,Translution在性能上确实有优势,架构创新值得肯定。
  • 网友5 2025-10-23 03
    浙大又厉害了,这种架构让神经网络更灵活,以后应用会更广泛。
  • 网友4 2025-10-23 03
    从理论到实验,Translution的统一机制有创新点,需要进一步研究。
  • 网友3 2025-10-23 03
    感觉这个架构很有意思,以后学习深度学习会有新内容了,很期待!
  • 网友2 2025-10-23 03
    浙大团队搞出这么有潜力的架构,以后AI发展会更好。
  • 网友1 2025-10-23 03
    这个研究很厉害,对神经网络本质的思考很深刻,值得重视。
查看“比Transformer更强的架构来了?浙大新作Translution,一统卷积和自注意力”相关搜索 >

最新新闻

An unhandled error has occurred. Reload 🗙