hadoop的环境搭建 1:创建用户hadoop 2:修改hadoop用户的权限命令visudo 添加 hadoop all all 语句; 3:关闭防火墙service iptables stop 4:修改主机名 : hostname hadoop01 5:映射主机 vim /etc/hosts 加上一条语句格式 ip地址+主机名 192.168.46.128 hadoop01 验证是否成功命令 ping hadoop 如果有反应及成功了
6:创建目录 在opt目录下创建app 和 soft 目录 soft用来存放安装包 app放应用程序的 如下所示:目录的结构
7:jdk的环境配置与安装,这里xshell的连接,详细的介绍有https://blog.csdn.net/weixin_43319279/article/details/101771159 上传文件的软件是xshell5 xshell5的使用方法是安装完成后 配置主机名和IP地址就可以进行连接 在linux中下载yum -y install lrzsz
执行rz命令进行选择传输的win上的文件
8:把jdk-8u181-linux-x64.tar.gz hadoop-1.2.1.tar.gz 两个文件上传到soft中 切换用户 su - hadoop01 通过命令
sudo tar -xf jdk-8u181.tar.gz -C /opt/app进入opt/app/jdk-1.8.1;pwd一下保存路径 vim /etc/profile加上两条语句
export JAVA_HOME=/opt/app/jdk-1.8.1 export PATH=$JAVA_HOME/bin:$PATH在重新启动source /etc/profile 输入命令java -version命令查看该配置是否成功;如果输出了jdk的版本说明配置成功了
hadoop的配置及验证
sudo tar -xf hadoop1-2-1.tar.gz -C /opt/app把 hadoop解压到目录 opt/app中
修改配置
cd /opt/app/hadoop.1-2-1/etc/hadoop在修改配置之前我们要更改用户组和用户的权限命令
sudo chown -R hadoop:hadoop /opt/app/hadoop1-2.11:配置hadoop-env.sh 在#the java implementation to use 加上一条语句
export JAVA_HOME=/opt/app/jdk-1.8.1即可
2:vim core-site.xml 在加入如下所示
<configuration> <property> <name> fs.defaultFS </name> <value> hdfs://hadoop01:8020:hdfs://主机名:端口号9000:8020</value> </configuration>
3:vim hdfs-site.xml
<configuration> <property> <name> dfs.replication </name> <value> 1 </value> </configuration>4:vim mapred-site.xml.template
<configuration> <property> <name> mapreduce.framework.name </name> <value> yarn </value> </configuration>5:vim yarn-site.xml
<configuration> <property> <name> yarn.nodemanager.aux-services </name> <value> mapreduces_shuffle </value> </configuration>5:设置完成后进行初始化
bin/hadoop namenode -format6:开启namenode
sbin/hadoop-daemon.sh start namenode7:开启datanode
sbin/hadoop-daemon.sh start datanode sbin/yarn-daemon.sh start resourcemager sbin/yarn-daemon.sh start nodemanagerjps看hadoop的服务是否启动起来了。
10:hadoop外部访问网址 ip:50070 ip:8020
11:hadoop的小应用(wordcount)统计文本中单词的次数 vim b.txt
上传
bin/hdfs dfs -put b.txt /b.txt bin/hadoop jar share/hadoop/mapreduece/hadoop-mapreduce-examples-2.7.1.jar wordcount /b.txt /output bin/hdfs dfs -ls /output bin/hdfs dfs -text /output/part*hadoop是一个框架 hadoop生态圈的介绍 1:HDFS:分布式文件存储系统 namenode:存放文件的元数据(元数据是:文件创建的时间,文件的权限,等,,,) datanode:存放文件的真正数据 hdfs中是以块的方式进行存储的,每个块的大小为128mb
2:mapreduce:并行的分布式 map:并行传输数据 reduce:统计每个并行数据的结果进行整合
3:yarn:hadoop1.0是没有yarn框架的 yarn是负责资源的有点像是电脑的内存负责资源的调度 resourcemanager:统计并管理多单台的结果。进行调度 nodemanager:单台电脑的资源管理
hadoop用在分析大量的数据,并行处理传输数据 把数据进行分隔成多份数据,hadoop有较高的容错性,它把数据分三份进行存储在不同的电脑上。
