A Generic Communication Scheduler for Distributed DNN Training Acceleration 论文阅读
#1. 引言
训练 DNN 通常是一个耗时的过程,这主要是由于数据和模型的大小不断增加。为了加速训练,常用的方法是数据并行(Data Parallel)。然而,数据并行的性能提升并非线性增加,主要的原因是通信开销。
训练 DNN 通常是一个耗时的过程,这主要是由于数据和模型的大小不断增加。为了加速训练,常用的方法是数据并行(Data Parallel)。然而,数据并行的性能提升并非线性增加,主要的原因是通信开销。
Horovod 是 Uber 于 2017 年发布的一个易于使用的高性能的分布式深度训练框架,支持 TensorFlow,Keras,PyTorch 和 MXNet。
(博主注: 2017 年 Google 刚刚提出 Transformer,2018 年 BERT 发布,2019 年 GPT-2 发布,2020 年 GPT-3 发布。回头看这篇 2017 年的论文仅供学习。)
不知不觉 2025 年已经过去了两个多月,感觉再不写这篇总结就要忘记了。
那么事不宜迟,现在让我们回顾一下 2024 年。
CS246: Mining Massive Data Sets
课程教材: MMDs
一般是周末
沐神投稿在 OSDI '14 的论文,提出了第三代 Parameter Server 框架。
沐神在 B 站有亲自讲解这篇论文的视频,可以参考: 参数服务器(Parameter Server)逐段精读【论文精读】。
如果有非模版函数,优先调用非模版函数。
Bigtable 是一个分布式存储系统,用于管理结构化数据,能够扩展到巨大的规模:PB 级别的数据,数千台机器。 Google 的很多项目都保存在 Bigtable 中,包括网页索引,Google Earth 和 Google Finance。
HDFS 的设计目标是可靠存储大数据集,并提供高吞吐量的数据访问。
很早就想读读大名鼎鼎的 GFS 的论文了,这次终于抽出时间好好读一下。