[MAPL@PLDI'19] Triton: An Intermediate Language and Compiler for Tiled Neural Network Computations 阅读笔记
深度神经网络 (DNNs) 的近期复兴在很大程度上得益于可编程并行计算设备的普及. 特别是, 多核架构 (例如 GPU) 性能的持续改进发挥了基础性作用, 使研究人员和工程师能够探索种类日益增多、规模越来越大的模型, 并使用越来越多的数据. 这一努力得到了一系列供应商库 (cuBLAS、cuDNN) 的支持, 这些库旨在尽快将最新的硬件创新带给从业者. 不幸的是, 这些库仅支持有限的一组 Tensor 操作, 将创新原语的实现留给了专家.