离线计算框架 MapReduce
思想:分而治之(将大数据集分为小的数据集)
将计算过程分为两个阶段,Map和Reduce
Map阶段并行处理输入数据Reduce阶段对Map结果进行汇总
Shuffle连接Map和Reduce两个阶段
Map Task将数据写到本地磁盘Reduce Task从每个Map Task上读取一份数据
仅适合离线批处理
具有很好的容错性和扩展性适合简单的批处理任务
缺点明显
启动开销大、过多使用磁盘导致效率低下等
转载于:https://www.cnblogs.com/Zlcode/p/8404154.html
相关资源:JAVA上百实例源码以及开源项目