tantan的博客

[arXiv'25] MTGRBoost: Boosting Large-scale Generative Recommendation Models in Meituan 论文阅读

发表于 2026-02-23 分类于 mlsys 本文字数： 13k 阅读时长 ≈ 48 分钟

推荐系统对用户体验和公司营收至关重要, 而生成式推荐模型近期被证明能够产生高质量的推荐结果. 然而, 现有系统在工业场景中训练生成式推荐模型时, 普遍面临功能支持不足与实现效率低下的限制. 为此, 我们推出了 MTGRBoost – 一个高效且可扩展的生成式推荐模型训练系统.

[ICDE'22] PICASSO: Unleashing the Potential of GPU-centric Training for Wide-and-deep Recommender Systems 论文阅读

发表于 2026-02-22 分类于 mlsys 本文字数： 13k 阅读时长 ≈ 49 分钟

个性化推荐的发展显著提高了信息匹配的准确性和电子商务平台的收入. 近期 (2022 年), 该领域呈现出两大趋势:

[NeurIPS'12] Large Scale Distributed Deep Networks (DistBelief) 阅读笔记

发表于 2026-02-08 分类于 mlsys 本文字数： 7.2k 阅读时长 ≈ 26 分钟

近期在无监督特征学习和深度学习领域的研究表明, 能够训练大型模型可以显著提升性能. 本文考虑了使用数万个 CPU 核心训练具有数十亿参数的深度网络的问题. 我们开发了一个名为 DistBelief 的软件框架, 该框架能够利用包含数千台机器的计算集群来训练大型模型. 在该框架中, 我们开发了两种用于大规模分布式训练的算法:

[MAPL@PLDI'19] Triton: An Intermediate Language and Compiler for Tiled Neural Network Computations 阅读笔记

发表于 2026-02-07 分类于 mlsys 本文字数： 6.1k 阅读时长 ≈ 22 分钟

深度神经网络 (DNNs) 的近期复兴在很大程度上得益于可编程并行计算设备的普及. 特别是, 多核架构 (例如 GPU) 性能的持续改进发挥了基础性作用, 使研究人员和工程师能够探索种类日益增多、规模越来越大的模型, 并使用越来越多的数据. 这一努力得到了一系列供应商库 (cuBLAS、cuDNN) 的支持, 这些库旨在尽快将最新的硬件创新带给从业者. 不幸的是, 这些库仅支持有限的一组 Tensor 操作, 将创新原语的实现留给了专家.

[OSDI'18] TVM: An Automated End-to-End Optimizing Compiler for Deep Learning 阅读笔记

发表于 2026-02-01 分类于 mlsys 本文字数： 10k 阅读时长 ≈ 38 分钟

将机器学习应用于广泛多样的硬件设备的需求日益增长. 当前框架依赖于特定供应商的算子库, 并针对狭窄范围的服务器级 GPU 进行优化. 将工作负载部署到新平台–例如手机、嵌入式设备和加速器 (如 FPGA、ASIC) --需要大量手动工作. 我们提出了 TVM, 一种编译器, 它通过暴露图级别和算子级别的优化, 为深度学习工作负载在不同硬件后端提供性能可移植性. TVM 解决了深度学习特有的优化挑战, 例如高级算子融合、映射到任意硬件原语以及内存延迟隐藏. 它还通过采用一种新颖的基于学习的成本建模方法来自动化低级程序的硬件特性优化, 以快速探索代码优化. 实验结果表明, TVM 在低功耗 CPU、手机 GPU 和服务器级 GPU 等硬件后端上提供的性能, 与最先进的、手工调优的库具有竞争力. 我们也展示了 TVM 针对新型加速器后端的能力, 例如基于 FPGA 的通用深度学习加速器. 该系统已开源, 并在多家大型公司内部署使用.

[VLDB'21] Constructing and Analyzing the LSM Compaction Design Space 论文阅读

发表于 2026-01-13 分类于 database-system 本文字数： 4.9k 阅读时长 ≈ 18 分钟

基于日志布局合并 (LSM) 的键值存储 LSM 树如今被广泛用作现代 NoSQL 键值存储的存储层. LSM 树采用 out-of-place 范式来实现快速数据写入. 传入的键值对被缓冲在主存中, 并定期刷新到持久存储中, 形成 sorted immutable runs. 随着磁盘上 run 数量的增加, 它们会被排序合并, 从而构建更少但更长的 sorted runs. 这个过程被称为 Compaction. 为了便于快速查询, LSM 树使用辅助的内存数据结构 (Bloom Filter 和 Fence Pointer) 辅助减少每次查询执行的平均磁盘 I/O 次数. 由于这些优势, LSM 树被多个生产级键值存储系统采用, 包括 Google 的 LevelDB 和 BigTable、Facebook 的 RocksDB、阿里巴巴的 X-Engine、MongoDB 的 WiredTiger、Cockroach Labs 的 CockroachDB、LinkedIn 的 Voldemort、Amazon 的 DynamoDB、Apache 的 AsterixDB、Cassandra、HBase、Accumulo 以及 Yahoo 的 bLSM 和 cLSM. 基于 LSM 树的学术系统包括 Monkey、SlimDB、Dostoevsky、LSM-Bush、Lethe、Silk、LSbM-tree、SifrDB 和 Leaper.

Slub 分配器 -- Linux 内核对 Slab 的优化

发表于 2026-01-12 分类于 programming ， malloc 本文字数： 318 阅读时长 ≈ 1 分钟

1996 年在 Linux 2.0 版本中引入了 slab allocator 之后, 逐渐暴露出一些问题. 因此在 2.6.22 版本对原有的算法进行了简化, 得到 Slub.

[ICDE'13] The Adaptive Radix Tree: ARTful Indexing for Main-Memory Databases 论文阅读

发表于 2026-01-11 分类于 database-system 本文字数： 291 阅读时长 ≈ 1 分钟

主存容量的增长使得大多数数据库都能装入内存 (RAM) 中. 对于主存数据库系统而言, 索引结构的性能是一个关键瓶颈. 传统的内存数据结构, 例如平衡二叉搜索树 (BST), 在现代硬件上效率低下, 因为它们没有充分利用 CPU 缓存. 哈希表也常用于主存索引, 虽然速度快, 但仅支持点查询.

[USTC'94] The Slab Allocator: An Object-Caching Kernel Memory Allocator 论文阅读

发表于 2026-01-11 分类于 programming ， malloc 本文字数： 7k 阅读时长 ≈ 25 分钟

Slab 分配器最早是有 Jeff Bonwick 在 SunOS 5.4 内核中引入的新内存分配器.

RPC 框架对比

发表于 2025-12-29 分类于 programming 本文字数： 737 阅读时长 ≈ 3 分钟

Thrift 是一个轻量级、跨语言的 RPC 框架，主要用于各个服务之间的 RPC 通信，最初由 Facebook 于 2007 年开发，2008 年进入 Apache 开源项目。它通过自身的 thrift (.thrift) 中间语言, 并借助代码生成引擎生成各种主流语言的 RPC 服务端/客户端模板代码。Thrift 支持多种不同的编程语言，包括 C++, Java, Python,PHP,Ruby, Erlang, Haskell, C#, Cocoa, Javascript, Node.js, Smalltalk, OCaml, Golang 等。