hadoop起源:起源于一个开源项目nutch,主要做通用爬虫。遇到2个问题:数据量太大,没法存储;数据量太大,没法搜索。检索的问题:lucene;数据存储问题:看到谷歌开源的3篇论文:GFS(google file system), MapReduce(分布式计算框架), BigTable(key,value对的非关系型数据库);产生2个框架 hadoop(HDFS+MapReduce), Hbase;hadoop:广义上,指代大数据的一个生态圈,包括各种周边的其他框架;狭义上,仅指hadoop软件本身。
(讲一天以上的框架,是重点,一天讲几个的,非重点)序列化:解决跨网络之间的数据传输问题。
hadoop四大优点:(1)扩容能力;(2)低成本;(3)高效率;(4)可靠性。
hadoop发行版本:主要从0.x 到1.x 到2.x这三个主流版本。
hadoop免费开源版本 三大主流公司:(1)apache开源版本,archive.apache.org/dist/ 优点:版本更新迭代较快,所有软件都有对应的迭代; 缺点:版本的升级,兼容,维护等都比较麻烦。 实际生产环境尽量不用apache版本。(2)免费开源版本hortonworks:软件的安装、升级等都做了; http://hortonworks.com/(3)服务收费版本cloudera:软件有收费版(基本功能),也有免费版(高级特性)。 https://www.cloudera.com/ 生产环境强烈推荐。(4)MapR:大数据软件厂商。
转载于:https://www.cnblogs.com/mediocreWorld/p/10940310.html
相关资源:JAVA上百实例源码以及开源项目