比Transformer更强的架构来了？浙大新作Translution，一统卷积和自注意力

2025年10月23日

（图片来自网络）

新智元报道编辑：KingHZ【新智元导读】融合Self-attention和Convolution两大核心机制，Translution以统一的框架重新审视深度神经网络的本质，为下一代神经网络提供了新的可能。

自2017年Transformer模型提出以来，Self-attention机制凭借其强大的建模能力，逐渐成为深度学习领域的核心操作。然而，随着人工智能模型的规模不断扩张，单纯依靠「堆参数、堆数据」提升性能的模式正逐渐遇到瓶颈。面对大模型训练代价高昂、性能增长趋缓等挑战，学术界和产业界亟需新的网络架构创新。

近日，浙江大学范鹤鹤、杨易、新加坡国立大学Mohan Kankanhalli、浙江大学吴飞四位老师提出具有划时代意义的神经网络基础操作——Translution。该研究认为，神经网络对某种类型数据建模的本质，是：1）为某一数据元素寻找相关元素或区域；2）对相关元素形成的区域进行有效编码，获取该区域真正内在结构的表征。据此，Translution实现了Self-Attention与Convolution的有机融合与统一，构建出更具普适性的神经计算机制。

Translution的核心思想与实现

Self-Attention与Convolution的统一：图1展示了Convolution与Self-attention的差异。Convolution在捕获关联区域时较为「死板」，而Self-attention可自适应捕捉关联区域。两种机制各有优势，却也始终割裂。Translution的出现，正是为了弥合这一鸿沟。通过为相对偏移分配独立参数矩阵，Translution在计算时引入方向性和相对位置信息，成为两种机制的特例。

表1：Translution对Self-Attention与Convolution的统一。Self-Attention和Convolution可分别看作Translution的特例。

α-Translution：轻量化版本：由于Translution参数量庞大，提出了轻量化版本α-Translution。通过低秩编码压缩参数，α-Translution在性能与可训练性间找到平衡，成为硬件条件下的过渡方案。

实验结果：在计算机视觉和自然语言任务中，Translution及其轻量化版本均显著优于传统Self-attention架构，展现对位置变化的强适应性与泛化性。

结论：Translution不仅是一项技术创新，更是一次对深度神经网络本质的重新思考，为新一代神经网络发展开辟新方向，为人工智能未来注入活力。

（声明：该内容经AI精编）查看原网页

精彩评论（10）

网友10 2025-10-23 03

浙江大学又搞出厉害的技术，以后科技发展会更快，感觉很有希望。
网友9 2025-10-23 03

统一自注意力和卷积，未来模型会更灵活，期待看到实际应用。
网友8 2025-10-23 03

为神经网络发展提供新思路，对人工智能的未来很有帮助。
网友7 2025-10-23 03

原来Transformer还有之后？Translution这个命名也很有创意，技术上有进步。
网友6 2025-10-23 03

通过实验对比，Translution在性能上确实有优势，架构创新值得肯定。
网友5 2025-10-23 03

浙大又厉害了，这种架构让神经网络更灵活，以后应用会更广泛。
网友4 2025-10-23 03

从理论到实验，Translution的统一机制有创新点，需要进一步研究。
网友3 2025-10-23 03

感觉这个架构很有意思，以后学习深度学习会有新内容了，很期待！
网友2 2025-10-23 03

浙大团队搞出这么有潜力的架构，以后AI发展会更好。
网友1 2025-10-23 03

这个研究很厉害，对神经网络本质的思考很深刻，值得重视。

查看“比Transformer更强的架构来了？浙大新作Translution，一统卷积和自注意力”相关搜索 >

比Transformer更强的架构来了？浙大新作Translution，一统卷积和自注意力

精彩评论（10）

最新新闻