[OSDI'20] A Unified Architecture for Accelerating Distributed DNN Training in Heterogeneous GPU/CPU Clusters (BytePS) 论文阅读
近年来,为了训练更大的模型,深度学习训练集群在不断发展。这样的集群通常包括 GPU,CPU 和高速互联网络,例如高速以太网或者 Infiniband。
近年来,为了训练更大的模型,深度学习训练集群在不断发展。这样的集群通常包括 GPU,CPU 和高速互联网络,例如高速以太网或者 Infiniband。
NVIDIA 推出的大 Transformer 模型的模型并行训练方法,到现在 (2025 年) 有 2k+ 次引用。
训练 DNN 通常是一个耗时的过程,这主要是由于数据和模型的大小不断增加。为了加速训练,常用的方法是数据并行(Data Parallel)。然而,数据并行的性能提升并非线性增加,主要的原因是通信开销。
Horovod 是 Uber 于 2017 年发布的一个易于使用的高性能的分布式深度训练框架,支持 TensorFlow,Keras,PyTorch 和 MXNet。
不知不觉 2025 年已经过去了两个多月,感觉再不写这篇总结就要忘记了。
CS246: Mining Massive Data Sets
一般是周末
沐神投稿在 OSDI '14 的论文, 提出了第三代 Parameter Server 框架.
如果有非模版函数,优先调用非模版函数。
Bigtable 是一个分布式存储系统,用于管理结构化数据,能够扩展到巨大的规模:PB 级别的数据,数千台机器。 Google 的很多项目都保存在 Bigtable 中,包括网页索引,Google Earth 和 Google Finance。