Hadoop、Hive、Spark 之间是什么关系？

发布时间：2022-12-13 08:01:59 所属栏目：大数据来源：转载

导读： 先了解一下Hadoop、Hive、Spark三者的基本概念：
从Hadoop到大数据生态
广义上Hadoop指的是围绕Hadoop打造的大数据生态圈。
Hadoop对应于Google三驾马车：HDFS对应于GFS，即分布式文件系统

先了解一下Hadoop、Hive、Spark三者的基本概念：

从Hadoop到大数据生态

广义上Hadoop指的是围绕Hadoop打造的大数据生态圈。

Hadoop对应于Google三驾马车：HDFS对应于GFS，即分布式文件系统，MapReduce即并行计算框架，HBase对应于BigTable，即分布式NoSQL列数据库，外加Zookeeper对应于Chubby，即分布式锁设施。

大数据数据计算_大数据计算框架_echarts大数据框架

Hadoop发展史：

《The Google file system》：谷歌分布式文件系统GFS

《MapReduce: Simpliied Data Processing on Large Clusters》：谷歌分布式计算框架MapReduce

《Bigtable: A Distributed Storage System for Structured Data》：谷歌结构化数据存储系统

变化：

① 在Hadoop1.x时代，Hadoop中的MapReduce同时处理业务逻辑运算和资源的调度，耦合性较大。

② 在Hadoop2.x时代，增加了Yarn。Yarn只负责资源的调度，MapReduce只负责运算。

③ Hadoop3.x在组成上没有什么变化。

现状：

HDFS作为分布式文件存储系统，处在生态圈的底层与核心地位；

YARN作为分布式通用的集群资源管理系统和任务调度平台，支撑各种计算引擎运行，保证了Hadoop地位；

MapReduce作为大数据生态圈第一代分布式计算引擎，由于自身设计的模型所产生的弊端，导致企业一线几乎不再直接使用MapReduce进行编程处理，但是很多软件的底层依然在使用MapReduce引擎来处理数据。

大数据技术生态体系

大数据计算框架_echarts大数据框架_大数据数据计算

来源网络 | 侵删

Sqoop： Sqoop 是一款开源的工具，主要用于在 Hadoop、 Hive 与传统的数据库（MySQL）间进行数据的传递，可以将一个关系型数据库（例如： MySQL， Oracle 等）中的数据导进到 Hadoop 的 HDFS 中，也可以将 HDFS 的数据导进到关系型数据库中。

Flume： Flume 是一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统，Flume 支持在日志系统中定制各类数据发送方，用于收集数据；

Kafka： Kafka 是一种高吞吐量的分布式发布订阅消息系统

Spark： Spark 是当前最流行的开源大数据内存计算框架。可以基于 Hadoop 上存储的大数据进行计算。

Flink： Flink 是当前最流行的开源大数据内存计算框架。用于实时计算的场景较多。

Oozie： Oozie 是一个管理 Hadoop 作业（job）的工作流程调度管理系统。

Hbase： HBase 是一个分布式的、面向列的开源数据库。 HBase 不同于一般的关系数据库，它是一个适合于非结构化数据存储的数据库。

Hive： Hive 是基于 Hadoop 的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的 SQL 查询功能，可以将 SQL 语句转换为 MapReduce 任务进行运行。其优点是学习成本低，可以通过类 SQL 语句快速实现简单的 MapReduce 统计，不必开发专门的 MapReduce 应用，十分适合数据仓库的统计分析。

ZooKeeper：它是一个针对大型分布式系统的可靠协调系统大数据计算框架，提供的功能包括：配置维护、名字服务、分布式同步、组服务等。

（编辑：源码门户网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

全域感知鸟眼人工智	数据项目成功的三个必
孩子的工程思维计算思	将大数据转化为营销收