[OSDI'20] A Unified Architecture for Accelerating Distributed DNN Training in Heterogeneous GPU/CPU Clusters 论文阅读
#1. 引言
近年来,为了训练更大的模型,深度学习训练集群在不断发展。这样的集群通常包括 GPU,CPU 和高速互联网络,例如高速以太网或者 Infiniband。
近年来,为了训练更大的模型,深度学习训练集群在不断发展。这样的集群通常包括 GPU,CPU 和高速互联网络,例如高速以太网或者 Infiniband。
NVIDIA 出品的大模型训练方法,2019 年挂在 ArXiV 上,到现在(2025 年)有 2k+ 论文引用。
训练 DNN 通常是一个耗时的过程,这主要是由于数据和模型的大小不断增加。为了加速训练,常用的方法是数据并行(Data Parallel)。然而,数据并行的性能提升并非线性增加,主要的原因是通信开销。
Horovod 是 Uber 于 2017 年发布的一个易于使用的高性能的分布式深度训练框架,支持 TensorFlow,Keras,PyTorch 和 MXNet。
(博主注: 2017 年 Google 刚刚提出 Transformer,2018 年 BERT 发布,2019 年 GPT-2 发布,2020 年 GPT-3 发布。回头看这篇 2017 年的论文仅供学习。)
不知不觉 2025 年已经过去了两个多月,感觉再不写这篇总结就要忘记了。
那么事不宜迟,现在让我们回顾一下 2024 年。
CS246: Mining Massive Data Sets
课程教材: MMDs
沐神投稿在 OSDI '14 的论文,提出了第三代 Parameter Server 框架。
沐神在 B 站有亲自讲解这篇论文的视频,可以参考: 参数服务器(Parameter Server)逐段精读【论文精读】。
如果有非模版函数,优先调用非模版函数。
Bigtable 是一个分布式存储系统,用于管理结构化数据,能够扩展到巨大的规模:PB 级别的数据,数千台机器。 Google 的很多项目都保存在 Bigtable 中,包括网页索引,Google Earth 和 Google Finance。
HDFS 的设计目标是可靠存储大数据集,并提供高吞吐量的数据访问。