[VLDB'10] Dremel: Interactive Analysis of Web-Scale Datasets 论文阅读
#0. 摘要
Dremel 是一个可扩展、交互式的针对只读嵌套数据的分析查询系统。通过结合多级执行树和列式存储布局,它能够在秒内对万亿行表进行聚合查询。该系统能够扩展到数千 CPU 和 PB 级别的数据,并且在 Google 内部有数千用户。在这篇论文中,我们描述了 Dremel 的体系结构和实现,并解释了它是如何补充基于 MapReduce 的计算的。我们提出了一个新颖的嵌套记录的列式存储表示,并讨论了在系统的小规模实例上(不到几千个节点)所做的一些实验。