hadoop2.x配置及wordcount小运用(单机)

mac2022-06-30  25

hadoop的环境搭建 1:创建用户hadoop 2:修改hadoop用户的权限命令visudo 添加 hadoop all all 语句; 3:关闭防火墙service iptables stop 4:修改主机名 : hostname hadoop01 5:映射主机 vim /etc/hosts 加上一条语句格式 ip地址+主机名 192.168.46.128 hadoop01 验证是否成功命令 ping hadoop 如果有反应及成功了

6:创建目录 在opt目录下创建app 和 soft 目录 soft用来存放安装包 app放应用程序的 如下所示:目录的结构

7:jdk的环境配置与安装,这里xshell的连接,详细的介绍有https://blog.csdn.net/weixin_43319279/article/details/101771159 上传文件的软件是xshell5 xshell5的使用方法是安装完成后 配置主机名和IP地址就可以进行连接 在linux中下载yum -y install lrzsz

执行rz命令进行选择传输的win上的文件

8:把jdk-8u181-linux-x64.tar.gz hadoop-1.2.1.tar.gz 两个文件上传到soft中 切换用户 su - hadoop01 通过命令

sudo tar -xf jdk-8u181.tar.gz -C /opt/app

进入opt/app/jdk-1.8.1;pwd一下保存路径 vim /etc/profile加上两条语句

export JAVA_HOME=/opt/app/jdk-1.8.1 export PATH=$JAVA_HOME/bin:$PATH

在重新启动source /etc/profile 输入命令java -version命令查看该配置是否成功;如果输出了jdk的版本说明配置成功了

hadoop的配置及验证

sudo tar -xf hadoop1-2-1.tar.gz -C /opt/app

把 hadoop解压到目录 opt/app中

修改配置

cd /opt/app/hadoop.1-2-1/etc/hadoop

在修改配置之前我们要更改用户组和用户的权限命令

sudo chown -R hadoop:hadoop /opt/app/hadoop1-2.1

1:配置hadoop-env.sh 在#the java implementation to use 加上一条语句

export JAVA_HOME=/opt/app/jdk-1.8.1

即可

2:vim core-site.xml 在加入如下所示

<configuration> <property> <name> fs.defaultFS </name> <value> hdfs://hadoop01:8020:hdfs://主机名:端口号9000:8020</value> </configuration>

3:vim hdfs-site.xml

<configuration> <property> <name> dfs.replication </name> <value> 1 </value> </configuration>

4:vim mapred-site.xml.template

<configuration> <property> <name> mapreduce.framework.name </name> <value> yarn </value> </configuration>

5:vim yarn-site.xml

<configuration> <property> <name> yarn.nodemanager.aux-services </name> <value> mapreduces_shuffle </value> </configuration>

5:设置完成后进行初始化

bin/hadoop namenode -format

6:开启namenode

sbin/hadoop-daemon.sh start namenode

7:开启datanode

sbin/hadoop-daemon.sh start datanode sbin/yarn-daemon.sh start resourcemager sbin/yarn-daemon.sh start nodemanager

jps看hadoop的服务是否启动起来了。

10:hadoop外部访问网址 ip:50070 ip:8020

11:hadoop的小应用(wordcount)统计文本中单词的次数 vim b.txt

上传

bin/hdfs dfs -put b.txt /b.txt bin/hadoop jar share/hadoop/mapreduece/hadoop-mapreduce-examples-2.7.1.jar wordcount /b.txt /output bin/hdfs dfs -ls /output bin/hdfs dfs -text /output/part*


hadoop是一个框架 hadoop生态圈的介绍 1:HDFS:分布式文件存储系统 namenode:存放文件的元数据(元数据是:文件创建的时间,文件的权限,等,,,) datanode:存放文件的真正数据 hdfs中是以块的方式进行存储的,每个块的大小为128mb

2:mapreduce:并行的分布式 map:并行传输数据 reduce:统计每个并行数据的结果进行整合

3:yarn:hadoop1.0是没有yarn框架的 yarn是负责资源的有点像是电脑的内存负责资源的调度 resourcemanager:统计并管理多单台的结果。进行调度 nodemanager:单台电脑的资源管理

hadoop用在分析大量的数据,并行处理传输数据 把数据进行分隔成多份数据,hadoop有较高的容错性,它把数据分三份进行存储在不同的电脑上。

最新回复(0)