英伟达更新CUDA 13.1,15行Python代码实现GPU内核性能超越传统C++代码

2025年12月8日
news

(图片来自网络)

英伟达发布最新版CUDA 13.1,引发行业重大变革。官方宣称这是自2006年CUDA诞生以来最大的进步,核心是推出全新CUDA Tile编程模型,让开发者能用15行Python代码编写GPU内核,性能可匹敌传统200行CUDA C++代码!


过去,GPU编程需手动管理线程、共享内存等细节,对开发者要求极高。而CUDA Tile彻底改变玩法:开发者只需定义“瓦片(Tile)”运算,编译器会自动优化映射到GPU硬件,就像Python对NumPy的抽象,大幅降低编程门槛。


英伟达为此打造了两项核心工具:cuTile Python(Python接口)和CUDA Tile IR(虚拟指令集),实现跨代GPU兼容,从现有Blackwell到未来架构都能支持。同时,针对Blackwell架构优化,

  • cuBLAS新增精度仿真功能,提升Tensor Core效率
  • cuSOLVER批处理特征分解性能提升约2倍
  • Grouped GEMM API让MoE模型加速达4倍


行业专家“硅仙人”Jim Keller指出,Tile模型非英伟达独有,未来AI内核更易移植到其他硬件。不过,CUDA Tile目前仅支持Blackwell架构,开发者工具Nsight Compute也新增了性能分析支持,助力开发者优化。


这意味着:数据科学家可直接用Python写高性能GPU代码,不用再依赖HPC专家;但英伟达是否削弱自身技术壁垒,成为行业关注焦点。

(声明:该内容经AI精编) 查看原网页

精彩评论(10)

  • 网友10 2025-12-08 13
    技术进步是一把双刃剑,降低门槛方便了开发但也可能影响技术壁垒,值得关注后续发展。
  • 网友9 2025-12-08 13
    终于不用被C++的复杂度吓到了,Python接口太友好,希望未来能更完善。
  • 网友8 2025-12-08 13
    以前技术迭代需要很长周期,现在CUDA一次更新这么大的变化,感觉未来编程方式可能彻底改变。
  • 网友7 2025-12-08 13
    CUDA变“CuTile”后,是不是要改名字为“CuTile”啊,哈哈,技术革新总带点趣味。
  • 网友6 2025-12-08 13
    没想到科技发展让编程门槛降低这么多,之前觉得GPU编程只有专业人士能做,现在普通人也能试试,很感兴趣。
  • 网友5 2025-12-08 13
    对团队开发友好,这样数据科学家和程序员配合更方便,提高项目进度。
  • 网友4 2025-12-08 13
    虽然方便了,但担心过段时间新模型再更新,代码又要调整,不过目前确实能提升开发效率。
  • 网友3 2025-12-08 13
    这玩意儿对学习GPU编程很有帮助,以前觉得CUDA太复杂,现在用Python可能更容易入门,期待学校课程更新。
  • 网友2 2025-12-08 13
    没想到现在编程可以这么简单,以前折腾C++都搞不明白,现在Python就能搞GPU,科技发展太快了。
  • 网友1 2025-12-08 13
    这太厉害了,以后不用学C++也能写GPU代码了,数据科学家终于能直接上手啦!
查看“英伟达更新CUDA 13.1,15行Python代码实现GPU内核性能超越传统C++代码”相关搜索 >

最新新闻

An unhandled error has occurred. Reload 🗙