图书介绍

Hadoop集群程序设计与开发【2025|PDF|Epub|mobi|kindle电子书版本百度云盘下载】

王宏志，李春静编著著
出版社：北京：人民邮电出版社
ISBN：9787115483041
出版时间：2018
标注页数：319页
文件大小：70MB
文件页数：336页
主题词：数据处理软件－程序设计－教材

PDF下载

点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快]温馨提示：（请使用BT下载软件FDM进行下载）软件下载地址页直链下载[便捷但速度慢] [在线试读本书] [在线获取解压码]

点击复制MD5值：97fb83eb841e84924fcb2ca7905455dd

下载说明

Hadoop集群程序设计与开发PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

点击复制85GB完整离线版磁力链接到迅雷FDM等BT下载工具进行下载详情点击-查看共享计划

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台）。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用！后期资源热门了。安装了迅雷也可以迅雷进行下载！

（文件页数要大于标注页数，上中下等多册电子书除外）

注意：本站所有压缩包均有解压码： 点击下载压缩包解压工具

图书目录

第1章初识Hadoop1

1.1 为什么要学习Hadoop2

1.1.1 信息化项目衍生过程2

1.1.2 Hadoop产生过程5

1.1.3 Hadoop成功案例介绍8

1.2 Hadoop与云计算的关系8

1.2.1 什么是云计算8

1.2.2 云计算演进历史10

1.2.3 云计算相关技术介绍12

1.2.4 Hadoop在云项目中扮演的角色12

1.3 Hadoop与大数据的关系13

1.3.1 什么是大数据13

1.3.2 大数据的存储结构15

1.3.3 大数据的计算模式15

1.3.4 Hadoop在大数据中扮演的角色16

1.4 学习Hadoop需要具备的知识基础16

1.5 学习Hadoop需要的实验环境17

1.6 Hadoop的用途17

1.7 小结17

第2章 Hadoop基础知识18

2.1 Hadoop简介19

2.1.1 Apache Hadoop项目核心模块19

2.1.2 Apache Hadoop项目的其他模块20

2.2 Hadoop版本演化22

2.3 RPC工作原理23

2.3.1 RPC简介24

2.3.2 Hadoop中的RPC25

2.3.3 RPCoIB和JVM-旁路缓冲管理方案：在高性能网络InfiniBand上数据交换的改进28

2.4 MapReduce工作原理30

2.4.1 MapReduce计算模型32

2.4.2 MapReduce经典案例33

2.4.3 MapReduce应用场景34

2.5 Hadoop改进34

2.5.1 LATE算法：良好的适应异构性环境35

2.5.2 Mantri：MapReduce异常处理36

2.5.3 SkewTune： MapReduce中数据偏斜处理37

2.5.4 基于RDMA的MapReduce设计：提升大数据应用的性能和规模42

2.6 HDFS工作原理44

2.6.1 HDFS介绍45

2.6.2 HDFS体系结构47

2.6.3 文件系统的命名空间50

2.6.4 HDFS中Block副本放置策略51

2.6.5 HDFS机架感知51

2.6.6 HDFS安全模式53

2.6.7 HDFS应用场景介绍53

2.6.8 混合HDFS的设计：充分利用硬件能力获得最佳性能53

2.7 YARN工作原理55

2.7.1 YARN on HDFS的工作原理55

2.7.2 MapReduce on YARN的工作原理58

2.8 容错机制64

2.9 安全性66

2.10 小结67

第3章 Hadoop开发环境配置与搭建68

3.1 集群部署69

3.1.1 安装包版本的选择69

3.1.2 Hadoop安装先决条件69

3.1.3 Hadoop安装模式70

3.2 本地/独立模式搭建71

3.2.1 JDK安装与配置71

3.2.2 SSH无密码登录72

3.2.3 Hadoop本地环境参数配置74

3.2.4 Hadoop本地模式验证74

3.3 伪分布模式搭建74

3.3.1 配置过程75

3.3.2 格式化HDFS76

3.3.3 Hadoop进程启停与验证76

3.4 全分布模式搭建77

3.4.1 Hadoop网络配置77

3.4.2 Hadoop集群SSH配置79

3.4.3 时间同步80

3.4.4 IP与机器名映射82

3.4.5 Hadoop环境配置82

3.4.6 Hadoop集群启停与验证84

3.5 基于Hadoop平台的Eclipse开发环境的搭建84

3.5.1 Hadoop Eclipse插件配置85

3.5.2 编写第一个MapReduce程序88

3.5.3 编译打包及运行程序90

3.6 小结93

第4章 Hadoop分布式文件系统94

4.1 HDFS工作原理95

4.1.1 HDFS读数据的过程95

4.1.2 HDFS写数据的过程96

4.1.3 HDFS删除与恢复数据的过程97

4.2 HDFS常用命令行操作概述98

4.2.1 HDFS命令行98

4.2.2 HDFS常用命令行操作102

4.3 通过Web浏览HDFS文件105

4.4 HDFS API106

4.4.1 使用FileSystem API读取数据命令行112

4.4.2 使用FileSystem API写入数据命令行115

4.4.3 FileUtil文件处理116

4.5 小结117

第5章 Hadoop的I/O操作118

5.1 压缩119

5.1.1 Hadoop压缩类型119

5.1.2 Compressi onCodec接口121

5.1.3 CompressionCodecFactory类123

5.1.4 压缩池125

5.1.5 Hadoop中使用压缩127

5.2 I/O序列化类型128

5.2.1 W ritable接口129

5.2.2 Java基本类型的Writable封装器131

5.2.3 IntWritable与VIntWritable类133

5.2.4 Text类134

5.2.5 BytesWritable类135

5.2.6 NullWritable类136

5.2.7 ObjectWritable类136

5.2.8 自定义Writable接口138

5.3 基于文件的数据结构141

5.3.1 SequenceFile141

5.3.2 MapFile144

5.4 小结145

第6章 MapReduce编程基础146

6.1 剖析MapReduce编程过程147

6.2 由WordCount理解MapReduce编程过程147

6.2.1 准备工作147

6.2.2 Mapper工作过程148

6.2.3 Reducer工作过程151

6.2.4 Job工作过程153

6.3 MapReduce类型155

6.4 Mapper输入155

6.4.1 默认输入格式156

6.4.2 FileInput输入160

6.4.3 多路径输入161

6.4.4 自定义输入分片163

6.5 Shuffle166

6.5.1 Shuffle运行原理166

6.5.2 分区168

6.5.3 排序170

6.5.4 分组171

6.6 Combiner172

6.6.1 由WordCount案例讲解Combiner172

6.6.2 由SVG案例进一步讲解Combiner173

6.7 OutputFormat输出178

6.8 编程模型的扩展——FlumeJava：云计算高级编程模型181

6.8.1 FlumeJava结构181

6.8.2 FlumeJava优化183

6.9 小结183

第7章 MapReduce高级编程184

7.1 计数器185

7.1.1 内置计数器185

7.1.2 自定义计数器188

7.1.3 计数器结果查看190

7.2 最值191

7.2.1 单一最值191

7.2.2 Top N195

7.3 全排序198

7.3.1 全排序业务需求198

7.3.2 实验数据准备199

7.3.3 自定义分区实现全排序过程200

7.3.4 通过抽样实现全排序过程203

7.4 二次排序206

7.4.1 解决方案207

7.4.2 例子210

7.5 连接211

7.5.1 Reduce端连接213

7.5.2 Map端连接217

7.6 小结220

第8章初识HBase221

8.1 HBase基础知识222

8.1.1 HBase特征222

8.1.2 HBase数据模型223

8.1.3 HBase体系结构225

8.2 HBase开发环境配置与安装231

8.2.1 HBase环境配置基本准备条件232

8.2.2 HBase配置文件233

8.2.3 HBase独立安装234

8.2.4 HBase伪分布式安装234

8.2.5 HBase完全分布式安装235

8.2.6 HBase启动、停止、监控236

8.3 HBase基本Shell操作237

8.3.1 HBase Shell启动237

8.3.2 HBase Shell通用命令237

8.3.3 HBase Shell表管理命令238

8.3.4 HBase Shell表操作命令238

8.3.5 HBase Shell应用举例239

8.4 基于HBase API程序设计239

8.4.1 管理表结构240

8.4.2 管理表信息242

8.4.3 Scan244

8.4.4 过滤器245

8.4.5 协处理器247

8.4.6 计数器247

8.4.7 MapReduce与HBase互操作247

8.5 RowKey设计250

8.5.1 HBase值的存储与读取的特点250

8.5.2 HBase值存储特点引发的问题250

8.5.3 RowKey设计遵循的原则251

8.6 HBase的高性能设计：使用InfiniBand的RDMA253

8.6.1 设计254

8.6.2 优势254

8.7 小结255

第9章初识Hive256

9.1 Hive基础知识257

9.1.1 Hive的存储结构257

9.1.2 Hive与传统数据库的比较258

9.2 Hive环境安装260

9.2.1 Hive内嵌模式安装261

9.2.2 Hive独立模式安装262

9.2.3 Hive远程模式安装263

9.2.4 初识Hive Shell264

9.2.5 Java通过JDBC对Hive操作266

9.3 HiveQL基本语法269

9.3.1 Hive中的数据库270

9.3.2 创建表的基本语法271

9.3.3 表中数据的加载273

9.3.4 HiveQL的数据类型274

9.3.5 数据类型转换277

9.3.6 文本文件数据编码278

9.3.7 分区和桶279

9.3.8 表维护282

9.4 HiveQL基本查询283

9.4.1 SELECT…FROM语句284

9.4.2 WHERE语句285

9.4.3 嵌套SELECT语句286

9.4.4 Hive函数287

9.4.5 GROUP BY语句303

9.4.6 JOIN语句305

9.4.7 UNION ALL语句310

9.4.8 ORDER BY和SORT BY语句310

9.4.9 含有SORT BY的DISTRIBUTEBY语句311

9.4.10 CLUSTER BY语句312

9.5 视图和索引313

9.5.1 视图313

9.5.2 索引314

9.6 Hive与HBase集成315

9.7 小结318

附录《 Hadoop集群程序设计与开发》配套套实验课程方案简介319