字面意思理解:大量的数据,海量的数据 数据集的大小已经远远超过了现有普通数据库软件和工具的处理能力的数据
1、海量数据快速查询 2、海量数据的存储(数据量大,单个大文件) 3、海量数据的快速计算(与传统的工具对比) 4、海量数据实时计算(立刻马上) 5、数据挖掘(挖掘以前没有发现的有价值的数据)
RAID 基于硬件的数据备份机制RAID0 磁盘使用率100%,硬件不做任何物理备份。RAID1 磁盘使用率50%,两个硬件磁盘进行数据备份备份的比例是1:1。系统硬盘(100%完全独立,不要存储业务数据)
物理磁盘做raid1(两个硬盘物理备份)/boot 200M/SWAP 内存的1-2被(大数据集群中要关闭)/ 所有的空间 数据硬盘多块小的硬盘 做一个大的硬盘(逻辑卷)系统硬盘(100%完全独立,不要存储业务数据)
物理磁盘做raid1(两个硬盘物理备份)/boot 200M/SWAP 内存的1-2被(大数据集群中要关闭)/ 所有的空间 数据硬盘优先不做raid 必须做raid时 物理磁盘做raid0 多块小的硬盘独立挂载(一个硬盘一个目录)Hadoop的组成部分
1、HDFS:海量数据的存储系统2、Map Reduce:海量数据的计算系统(计算框架)3、YARN:集群资源管理(调度)的框架。 Hive:海量数据仓库Hbase:海量数据快速查询数据库。Zookeeper:集群组件协调。Impala:是一个能查询存储在Hadoop的HDFS和HBase中的PB级数据的交互式查询引擎。Kudu:是一个既能够支持高吞吐批处理,又能够满足低延时随机读取的综合组件Sqoop:数据同步组件(关系型数据库与hadoop同步)。Flume :海量数据收集。Kafka:消息总线。Oozie:工作流协调。Azkaban: 工作流协调。Zeppelin: 数据可视化。Hue: 数据可视化。Flink:实时计算引擎。Kylin: 分布式分析引擎,提供Hadoop/Spark之上的SQL查询接口及多维分析。Elasticsearch: 是一个分布式多用户能力的全文搜索引擎。Logstash: 一个开源数据搜集引擎。Kibana: 一个开源的分析和可视化平台。SPARK
SparkCore:Spark 核心组件SparkSQL:高效数仓SQL引擎Spark Streaming: 实时计算引擎Structured: 实时计算引擎2.0Spark MLlib:机器学习引擎Spark GraphX:图计算引擎扩展性
传统的时纵向扩展 服务器数量不发生变化,配置越来越高(发生变化)大数据横向扩展 配置不发生变化,服务器数量越来越多(发生变化)分布式
传统的方式资源(cpu/内存/硬盘)集中大数据方式资源(cpu/内存/硬盘)分布(前提:同等配置的前提下)可用性
传统数据备份方式单份备份大数据数据备份方式多分备份(数据复制,默认三个副本)模型
传统的计算模型是移动数据到程序端大数据计算模型是移动程序到数据端 (io 和网络的使用率都非常低,且多节点存储,多节点计算(众人拾柴火焰高)大数据技术快的原因
1、分布式存储2、分布式并行计算3、移动程序到数据端4、更前卫、更先进的实现思路5、更细分的业务场景6、更先进的硬件技术+更先进的软件技术