[OSDI'10] Large-scale Incremental Processing Using Distributed Transactions and Notifications 论文阅读
MapReduece 系统解决了海量数据索引创建的问题, 但 MR 并没有解决增量数据的实时更新问题. 本文介绍了 Percolator 系统, 讨论了如何在不支持跨行事务的 BigTable 上, 实现大规模增量处理系统.
#引言
[ArXiv'25] RankMixer: Scaling Up Ranking Models in Industrial Recommenders
#摘要
近年来, 大型语言模型 (LLM) 的进展激发了人们对 Scaling Up 推荐系统的兴趣, 但仍存在两个实际障碍.
Minimal Linux 桌面操作系统构建指南
#引言
一个完整的 Linux 操作系统包括多少个组件?涉及多少个 deb 包?如何从零开始构建一个最小化的 Linux 系统?本文将带你了解最小化 Linux 系统的构建过程, 涵盖内核, 引导加载程序, 基本工具链和必要的用户空间组件。
gettext 国际化使用总结
#gettext 是什么
gettext 是 GNU 的国际化与本地化 (i18n) 函数库。它常被用于编写多语言程序。
folly::Future 简介与使用
#什么是 folly::Future?
folly::Future 是 Meta 开源的 C++ 库 Folly 中提供的一个异步编程工具。它类似于其他语言中的 Future 或 Promise 概念,用于表示一个可能在未来某个时间点完成的异步操作的结果。通过使用 folly::Future,开发者可以更方便地处理异步任务,避免回调地狱,提高代码的可读性和维护性。
Blade 构建系统
#简介
Blade 是腾讯开源的一个方便、易用、高性能的现代化构建系统。
[VLDB'10] Dremel: Interactive Analysis of Web-Scale Datasets 论文阅读
#0. 摘要
Dremel 是一个可扩展、交互式的针对只读嵌套数据的分析查询系统。通过结合多级执行树和列式存储布局,它能够在秒内对万亿行表进行聚合查询。该系统能够扩展到数千 CPU 和 PB 级别的数据,并且在 Google 内部有数千用户。在这篇论文中,我们描述了 Dremel 的体系结构和实现,并解释了它是如何补充基于 MapReduce 的计算的。我们提出了一个新颖的嵌套记录的列式存储表示,并讨论了在系统的小规模实例上(不到几千个节点)所做的一些实验。
[KDD'15] Petuum: A New Platform for Distributed Machine Learning 论文阅读
Petuum 是一家位于美国匹兹堡 (Pittsburgh) 的人工智能创业公司, 由卡内基梅隆大学 (CMU) 的邢波 Eric Xing 教授创立. Petuum 团队的技术实力已经获得了业内广泛的认可, 并取得了诸多的奖项, 其中包括 ACM 云计算研讨会上的最佳论文奖、 CBInsights 的全球 AI 初创公司 100 强以及 GWC 2017 年 G-Summit 峰会上的 AI 初创公司 10 强. 迄今, Petuum 的融资总额已达一亿八百万美元, 成为获投资额度最高的早期人工智能初创公司之一.