KAIST CS492: Design and Analysis of Concurrent Programs
A program is making progress if, when the program threads are run for a sufficiently long time, at least one of the threads makes progress (for some sensible definition of progress).
A program is making progress if, when the program threads are run for a sufficiently long time, at least one of the threads makes progress (for some sensible definition of progress).
dlmalloc 是一个 C 语言实现的流行的内存分配器实现,由纽约州立大学 Oswego 分校计算机系教授 Doug Lea 在 1980 年代编写,许多人称之为 Doug Lea 的 malloc,或者简称 dlmalloc。
Dynamo 是 Amazon 在 2007 年发表的大规模分布式 K-V 存储系统. 作为电商领域的巨头, Amazon 较早面临巨大业务规模带来的技术挑战. Dynamo 的技术方案在当时的分布式系统中是非常前沿的, 其设计思想和实现细节对后来的 NoSQL 系统产生了深远的影响.
SPDK 是 Intel 提出的一套用户态 NVMe SSD I/O 软件栈,其核心是使用用户态的 SSD 驱动绕过上下文切换的开销。
近年来,为了训练更大的模型,深度学习训练集群在不断发展。这样的集群通常包括 GPU,CPU 和高速互联网络,例如高速以太网或者 Infiniband。
NVIDIA 出品的大模型训练方法,2019 年挂在 ArXiV 上,到现在(2025 年)有 2k+ 论文引用。
训练 DNN 通常是一个耗时的过程,这主要是由于数据和模型的大小不断增加。为了加速训练,常用的方法是数据并行(Data Parallel)。然而,数据并行的性能提升并非线性增加,主要的原因是通信开销。
Horovod 是 Uber 于 2017 年发布的一个易于使用的高性能的分布式深度训练框架,支持 TensorFlow,Keras,PyTorch 和 MXNet。
不知不觉 2025 年已经过去了两个多月,感觉再不写这篇总结就要忘记了。
CS246: Mining Massive Data Sets