Hadoop大数据通用处理平台

发布时间：2019-03-17 16:14:13 所属栏目：教程来源：Java的小本家

导读：副标题#e# Hadoop是一款开源的大数据通用处理平台，其提供了分布式存储和分布式离线计算，，适合大规模数据、流式数据(写一次,读多次)，不适合低延时的访问、大量的小文件以及频繁修改的文件。 *Hadoop由HDFS、YARN、MapReduce组成。如果想学习Java工程化

副标题[/!--empirenews.page--]

Hadoop是一款开源的大数据通用处理平台，其提供了分布式存储和分布式离线计算，，适合大规模数据、流式数据(写一次,读多次)，不适合低延时的访问、大量的小文件以及频繁修改的文件。

*Hadoop由HDFS、YARN、MapReduce组成。

如果想学习Java工程化、高性能及分布式、深入浅出。微服务、Spring，MyBatis，Netty源码分析的朋友可以加我的Java高级交流：854630135，群里有阿里大牛直播讲解技术，以及Java大型互联网技术的视频免费分享给大家。

Hadoop的特点：

Hadoop的使用场景：

Hadoop生态圈：

Hive：利用Hive可以不需要编写复杂的Hadoop程序，只需要写一个SQL语句，Hive就会把SQL语句转换成Hadoop的任务去执行，降低使用Hadoop离线计算的门槛。
HBase：海量数据存储的非关系型数据库，单个表中的数据能够容纳百亿行x百万列。
ZooKeeper：监控Hadoop集群中每个节点的状态，管理整个集群的配置，维护节点间数据的一致性。
Flume：海量日志采集系统。

2.内部结构

2.1 HDFS

HDFS是分布式文件系统，存储海量的文件，其中HDFS中包含NameNode、DataNode、SecondaryNameNode组件等。

Block数据块

DataNode

NameNode

存储文件的元信息和文件与Block、DataNode的关系，NameNode运行时所有数据都保存在内存中，因此整个HDFS可存储的文件数受限于NameNode的内存大小。
每个Block在NameNode中都对应一条记录，如果是大量的小文件将会消耗大量内存，因此HDFS适合存储大文件。
NameNode中的数据会定时保存到本地磁盘中(只有元数据)，但不保存文件与Block、DataNode的位置信息，这部分数据由DataNode启动时上报和运行时维护。

*NameNode不允许DataNode具有同一个Block的多个副本，所以创建的最大副本数量是当时DataNode的总数。

*DataNode会定期向NameNode发送心跳信息，一旦在一定时间内NameNode没有接收到DataNode发送的心跳则认为其已经宕机，因此不会再给它任何IO请求。

*如果DataNode失效造成副本数量下降并且低于预先设置的阈值或者动态增加副本数量，则NameNode会在合适的时机重新调度DataNode进行复制。

SecondaryNameNode

HDFS写入文件的流程

HDFS Client向NameNode申请写入文件。
NameNode根据文件大小，返回文件要写入的DataNode列表以及Block id (此时NameNode已存储文件的元信息、文件与DataNode、Block之间的关系)
HDFS Client收到响应后，将文件写入第一个DataNode中，第一个DataNode接收到数据后将其写入本地磁盘，同时把数据传递给第二个DataNode，直到写入备份数个DataNode。
每个DataNode接收完数据后都会向前一个DataNode返回写入成功的响应，最终第一个DataNode将返回HDFS Client客户端写入成功的响应。
当HDFS Client接收到整个DataNodes的确认请求后会向NameNode发送最终确认请求，此时NameNode才会提交文件。

*当写入某个DataNode失败时，数据会继续写入其他的DataNode，NameNode会重新寻找DataNode继续复制，以保证数据的可靠性。

*每个Block都会有一个校验码并存放在独立的文件中，以便读的时候来验证数据的完整性。

*文件写入完毕后，向NameNode发送确认请求，此时文件才可见，如果发送确认请求之前NameNode宕机，那么文件将会丢失，HDFS客户端无法进行读取。

HDFS读取文件的流程

HDFS Client向NameNode申请读取指定文件。
NameNode返回文件所有的Block以及这些Block所在的DataNodes中(包括复制节点)
HDFS Client根据NameNode的返回，优先从与HDFS Client同节点的DataNode中直接读取(若HDFS Client不在集群范围内则随机选择)，如果从DataNode中读取失败则通过网络从复制节点中进行读取。

机架感知

分布式集群中通常包含非常多的机器，由于受到机架槽位和交换机网口的限制，通常大型的分布式集群都会跨好几个机架，由多个机架上的机器共同组成一个分布式集群。

机架内的机器之间的网络速度通常都会高于跨机架机器之间的网络速度，并且机架之间机器的网络通信通常受到上层交换机间网络带宽的限制。

（编辑：源码门户网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

手机杀毒介绍,教您手机	网页截图,教您如何对网
电脑蓝牙怎么开电脑蓝	Dreamweaver如何把图片