Druid实时大数据分析原理与实践 6.5分
读书笔记 第1章 初识Druid
thinker

Druid的三个设计原则

1、快速查询(Fast Query):部分数据的聚合(Partial Aggregate) + 内存化(In-Memory) + 索引(Index)。

数据内存化也是提高查询速度的杀手锏。

Druid里面使用了Bitmap和各种压缩技术。支持Drill-Down

2、水平扩展能力(Horizontal Scalability): 分布式数据(Distributed Data) + 并行化查询(Parallelizable Query)。

Druid查询性能在很多程度上依赖于内存的优化使用。数据可以分布在多个节点的内存中,因此当数据增长的时候,可以通过简单增加机器的方式进行扩容。为了保持平衡,Druid按照时间范围把聚合数据进行分区处理。对于高基数的维度,只按照时间切分有时候是不够的(Druid的每个Segment不超过2000万行),故Druid还支持对Segment进一步分区。

3、实时分析(Realtime Analytics):不可变的过去,只追加的未来(Immutable Past,Append-Only Future)。

Druid提供了包含基于时间维度数据的存储服务,并且任何一行数据都是历史真实发生的事件,因此在设计之初就约定事件一但进入系统,就不能再改变。

对于历史数据Druid以Segment数据文件的方式组织,并且将它们存储到深度存储系统中。

0
《Druid实时大数据分析原理与实践》的全部笔记 1篇
豆瓣
我们的精神角落
免费下载 iOS / Android 版客户端