A Generic Communication Scheduler for Distributed DNN Training Acceleration 论文阅读
训练 DNN 通常是一个耗时的过程,这主要是由于数据和模型的大小不断增加。为了加速训练,常用的方法是数据并行(Data Parallel)。然而,数据并行的性能提升并非线性增加,主要的原因是通信开销。
训练 DNN 通常是一个耗时的过程,这主要是由于数据和模型的大小不断增加。为了加速训练,常用的方法是数据并行(Data Parallel)。然而,数据并行的性能提升并非线性增加,主要的原因是通信开销。
Horovod 是 Uber 于 2017 年发布的一个易于使用的高性能的分布式深度训练框架,支持 TensorFlow,Keras,PyTorch 和 MXNet。
不知不觉 2025 年已经过去了两个多月,感觉再不写这篇总结就要忘记了。
CS246: Mining Massive Data Sets
一般是周末
沐神投稿在 OSDI '14 的论文, 提出了第三代 Parameter Server 框架.
如果有非模版函数,优先调用非模版函数。
Bigtable 是一个分布式存储系统,用于管理结构化数据,能够扩展到巨大的规模:PB 级别的数据,数千台机器。 Google 的很多项目都保存在 Bigtable 中,包括网页索引,Google Earth 和 Google Finance。
HDFS 的设计目标是可靠存储大数据集,并提供高吞吐量的数据访问。
很早就想读读大名鼎鼎的 GFS 的论文了,这次终于抽出时间好好读一下。