点评《企业大数据处理》一书

moooofly

总体评价: 此书适合初级入门,能够满足知识梳理的需求;但整体上该书没有形成连贯的系统性介绍,感觉上更像是大数据相关组件的分别说明; 第二章的 spark 和第七章的 kafka 是我比较关注的内容,书中基本做到了对相关知识的介绍,但也存在一些行文问题; 第一、八、九章内容都太简略,只能作为扫盲用; 书中存在大量排版问题,以及错字,错单词(具体勘误我就不写了,太多了),个别存在语句不顺或有歧义的地方; ----- 第一章 简单过了一遍环境安装,中规中矩; 第二章 比较详细的介绍了 spark 相关的核心概念,架构,数据处理模式等内容; 针对 spark 优化上总结了一些比较有价值的建议和意见; 需要改进的点: 1.缺少 DataNode、NodeManager、partition 等概念的说明,而行文中却直接使用了; 2.个别核心概念中提及的东东,在后面整章都没有用到; 3.没有专门说明哪些行为会引起 shuffle ,以及引起 shuffle 会导致什么; 4.没有说明 cache 在 partition 级别上的处理; 第三、四、五章 和 Druid 相关,目前不会使用这个组件,故没有细看; 第六章 详细介绍了flume相关架构和使用; 按照source,channel,sink的各种类型,分别详述了功能特点和使用...

显示全文

总体评价: 此书适合初级入门,能够满足知识梳理的需求;但整体上该书没有形成连贯的系统性介绍,感觉上更像是大数据相关组件的分别说明; 第二章的 spark 和第七章的 kafka 是我比较关注的内容,书中基本做到了对相关知识的介绍,但也存在一些行文问题; 第一、八、九章内容都太简略,只能作为扫盲用; 书中存在大量排版问题,以及错字,错单词(具体勘误我就不写了,太多了),个别存在语句不顺或有歧义的地方; ----- 第一章 简单过了一遍环境安装,中规中矩; 第二章 比较详细的介绍了 spark 相关的核心概念,架构,数据处理模式等内容; 针对 spark 优化上总结了一些比较有价值的建议和意见; 需要改进的点: 1.缺少 DataNode、NodeManager、partition 等概念的说明,而行文中却直接使用了; 2.个别核心概念中提及的东东,在后面整章都没有用到; 3.没有专门说明哪些行为会引起 shuffle ,以及引起 shuffle 会导致什么; 4.没有说明 cache 在 partition 级别上的处理; 第三、四、五章 和 Druid 相关,目前不会使用这个组件,故没有细看; 第六章 详细介绍了flume相关架构和使用; 按照source,channel,sink的各种类型,分别详述了功能特点和使用的优劣; 本章节配置略多,但整体比较清晰; 关于日志收集架构的说明和对比有借鉴意义; 可以改进的点: 1.flume-ng 的三层架构可以不全部出现在agent中,这一点在书中未直接表明,需要自行理解出来; 2.关于日志收集层和日志汇聚层的概念没有在合适的位置进行说明,突然提出这两者,让读者不知所以; 3.关于负载均衡和故障转移,在6.2.2中看来似乎只是针对sink组的,那么问题是,针对source和channel的均衡和转移没有任何说明 第七章 概述了分布式消息队列的作用,实际内容可以分为两类,其一,所有MQ共有的特性;其二,kafka自身采用和实现的优化方案;对于我个人来说,顺序读写磁盘(实现方案细节未提及),零拷贝特性(内核早就支持的东东),端到端消息压缩传输(就是最普通的压缩传输),leader-follower实现,以及扩展能力的实现是我感兴趣的部分; kafka依赖zk实现针对broker的服务发现; 未说清楚的地方: 1.kafka能够将副本均匀的分配到各个broker存储,但没说具体如何做到的; 2.理论上kafka性能随broker数量的增多而增加,而broker对应的是kafka实例,那么一个kafka集群由多少broker组成,数量选取的依据等未说明; 3.topic可以进行分区,分区原则是什么没提及; 4.理论上分区越多,系统的整体吞吐量越高,但分区多也意味着broker多,进而broker挂掉时需要重新选主的概率变高,选主耗时变长? 5.consumer group模式下的consumer原则方式没有说明; 6.每个分区对应consumer的一个处理线程,若一个topic拆分成过多分区,则会导致consumer线程的大量增加,可能导致性能下降;这里缺少针对分区内消息有序性,分区间无序场景的讨论,即针对多分区情况,consumer多线程如何保证消息有序且高吞吐量? 7.consumer提到心跳相关配置参数,但producer没有提及; 8.针对ack机制,提及Producer支持,但没有提及consumer是否支持;也没有提及是否支持multiple ack机制; 第八章 对比了传统报表和数据平台的差别,以及后者解决了哪些问题; 对数据平台的整体架构进行了概述,提供了一些思路; 第九章 针对influxdb的介绍属于扫盲类; 详细介绍了JMXTrans相关内容,帮助理解jvm监控的可用方法; 针对grafana的介绍属于扫盲类;

0
0

查看更多豆瓣高分好书

回应(0)

添加回应

了解更多图书信息

值得一读

    豆瓣
    我们的精神角落
    免费下载 iOS / Android 版客户端
    App 内打开