Hadoop概述

mac2024-04-02  37

Hadoop是什么

1)Hadoop是一个分布式系统大数据处理框架

2)主要解决,海量数据的存储和海量数据的分析计算问题。

狭义:hadoop就是一个框架而已,包含了hdfs(hadoop分布式文件系统,存储)、mapreduce(分布式离线计算)、yarn(资源调度框架)

广义:即生态系统,storm实时计算框架、flume数据采集、hive数据仓库工具、hbase非关系型数据库(大数据中的mysql)、zookeeper分布式协调服务、kafka消息队列(中间件)、sqoop数据导入导出等

Hadoop的优势(分布式基础架构)

技术选型

1)高可靠性:因为Hadoop假设计算元素和存储会出现故障,因为它维护多个工作数据副本,在出现故障时可以对失败的节点重新分布处理。

2)高扩展性:在集群间分配任务数据,可方便的扩展数以千计的节点。

3)高效性:在MapReduce的思想下,Hadoop是并行工作的,以加快任务处理速度。

4)高容错性:自动保存多份副本数据,并且能够自动将失败的任务重新分配。

Hadoop组成

1)Hadoop HDFS:(hadoop distribute file system )一个高可靠、高吞吐量的分布式文件系统

2)Hadoop MapReduce:一个分布式的离线并行计算框架

3)Hadoop YARN:作业调度与集群资源管理的框架

4)Hadoop Common:支持其他模块的工具模块(Configuration、RPC、序列化机制、日志操作)。

最新回复(0)