比Transformer更强的架构来了?浙大新作Translution,一统卷积和自注意力

(图片来自网络)
新智元报道编辑:KingHZ【新智元导读】融合Self-attention和Convolution两大核心机制,Translution以统一的框架重新审视深度神经网络的本质,为下一代神经网络提供了新的可能。
自2017年Transformer模型提出以来,Self-attention机制凭借其强大的建模能力,逐渐成为深度学习领域的核心操作。然而,随着人工智能模型的规模不断扩张,单纯依靠「堆参数、堆数据」提升性能的模式正逐渐遇到瓶颈。面对大模型训练代价高昂、性能增长趋缓等挑战,学术界和产业界亟需新的网络架构创新。
近日,浙江大学范鹤鹤、杨易、新加坡国立大学Mohan Kankanhalli、浙江大学吴飞四位老师提出具有划时代意义的神经网络基础操作——Translution。该研究认为,神经网络对某种类型数据建模的本质,是:1)为某一数据元素寻找相关元素或区域;2)对相关元素形成的区域进行有效编码,获取该区域真正内在结构的表征。据此,Translution实现了Self-Attention与Convolution的有机融合与统一,构建出更具普适性的神经计算机制。
Translution的核心思想与实现
Self-Attention与Convolution的统一:图1展示了Convolution与Self-attention的差异。Convolution在捕获关联区域时较为「死板」,而Self-attention可自适应捕捉关联区域。两种机制各有优势,却也始终割裂。Translution的出现,正是为了弥合这一鸿沟。通过为相对偏移分配独立参数矩阵,Translution在计算时引入方向性和相对位置信息,成为两种机制的特例。
表1:Translution对Self-Attention与Convolution的统一。Self-Attention和Convolution可分别看作Translution的特例。
α-Translution:轻量化版本:由于Translution参数量庞大,提出了轻量化版本α-Translution。通过低秩编码压缩参数,α-Translution在性能与可训练性间找到平衡,成为硬件条件下的过渡方案。
实验结果:在计算机视觉和自然语言任务中,Translution及其轻量化版本均显著优于传统Self-attention架构,展现对位置变化的强适应性与泛化性。
结论:Translution不仅是一项技术创新,更是一次对深度神经网络本质的重新思考,为新一代神经网络发展开辟新方向,为人工智能未来注入活力。
最新新闻
- 2025年10月22日:潘建伟:第二次量子革命需长期耐心与支持
- 2025年10月22日:NASA重启登月竞标引局长之争 马斯克发声抨击局长
- 2025年10月22日:欧冠4冠王阿贾克斯开局3连败垫底 滕哈格或回归救火
- 2025年10月22日:欧冠赛程精彩瞬间:皇马小胜尤文,利物浦止连败,拜仁大胜布鲁日
- 2025年10月22日:利物浦1.4亿欧元引进球星半场被换,8次出场仅1球引发关注
- 2025年10月22日:亚马逊推出三合一仓库机器人 摩根士丹利预计2027年降本40亿美元
- 2025年10月22日:8次扑救力保零封 维卡里奥当选摩纳哥vs热刺比赛最佳
- 2025年10月22日:法兰克福欧冠三场比赛比分均为5-1 独特战绩引关注
- 2025年10月22日:埃基蒂克欧冠进球后感言:感恩法兰克福 成就自我
- 2025年10月22日:小米汽车回应网传SOS宣传失实:系AI生成谣言
- 2025年10月22日:欧冠第三轮比赛日:拜仁、切尔西爆发,利物浦反超,皇马低迷
- 2025年10月22日:阿贾克斯半场丢4球1-4负切尔西 创队史时隔67年欧战纪录
- 2025年10月22日:谷歌量子计算创纪录:碾压超算13000倍,登Nature封面
- 2025年10月22日:毕包3-1逆转卡拉巴赫,古鲁泽塔双响助球队获胜
- 2025年10月22日:罗本现身安联球场 照片曝光引发关注
- 2025年10月22日:欧冠首胜诞生!两队终结连败拿到历史胜利,比赛数据更新
- 2025年10月22日:苹果确认Vision Pro不支持折抵换购 原价近3万元机型无官方抵扣服务
- 2025年10月22日:欧冠联赛第3轮:毕包与卡拉巴赫半场1-1平,安德拉德与古鲁泽塔进球
- 2025年10月22日:皇马与尤文欧冠对决:姆巴佩、卜拉欣首发,弗拉霍维奇等出战
- 2025年10月22日:德天空曝特尔施特根冬窗可能离队 多球队询问转会意向
精彩评论(10)