hadoop2.x配置及wordcount小运用(单机)

mac2022-06-30 25

hadoop的环境搭建 1：创建用户hadoop 2：修改hadoop用户的权限命令visudo 添加 hadoop all all 语句； 3：关闭防火墙service iptables stop 4：修改主机名： hostname hadoop01 5：映射主机 vim /etc/hosts 加上一条语句格式 ip地址+主机名 192.168.46.128 hadoop01 验证是否成功命令 ping hadoop 如果有反应及成功了

6：创建目录在opt目录下创建app 和 soft 目录 soft用来存放安装包 app放应用程序的如下所示：目录的结构

7：jdk的环境配置与安装，这里xshell的连接，详细的介绍有https://blog.csdn.net/weixin_43319279/article/details/101771159 上传文件的软件是xshell5 xshell5的使用方法是安装完成后配置主机名和IP地址就可以进行连接在linux中下载yum -y install lrzsz

执行rz命令进行选择传输的win上的文件

8：把jdk-8u181-linux-x64.tar.gz hadoop-1.2.1.tar.gz 两个文件上传到soft中切换用户 su - hadoop01 通过命令

sudo tar -xf jdk-8u181.tar.gz -C /opt/app

进入opt/app/jdk-1.8.1;pwd一下保存路径 vim /etc/profile加上两条语句

export JAVA_HOME=/opt/app/jdk-1.8.1 export PATH=$JAVA_HOME/bin:$PATH

在重新启动source /etc/profile 输入命令java -version命令查看该配置是否成功；如果输出了jdk的版本说明配置成功了

hadoop的配置及验证

sudo tar -xf hadoop1-2-1.tar.gz -C /opt/app

把 hadoop解压到目录 opt/app中

修改配置

cd /opt/app/hadoop.1-2-1/etc/hadoop

在修改配置之前我们要更改用户组和用户的权限命令

sudo chown -R hadoop：hadoop /opt/app/hadoop1-2.1

1:配置hadoop-env.sh 在#the java implementation to use 加上一条语句

export JAVA_HOME=/opt/app/jdk-1.8.1

即可

2:vim core-site.xml 在加入如下所示

<configuration> <property> <name> fs.defaultFS </name> <value> hdfs://hadoop01:8020：hdfs://主机名：端口号9000：8020</value> </configuration>

3：vim hdfs-site.xml

<configuration> <property> <name> dfs.replication </name> <value> 1 </value> </configuration>

4：vim mapred-site.xml.template

<configuration> <property> <name> mapreduce.framework.name </name> <value> yarn </value> </configuration>

5:vim yarn-site.xml

<configuration> <property> <name> yarn.nodemanager.aux-services </name> <value> mapreduces_shuffle </value> </configuration>

5:设置完成后进行初始化

bin/hadoop namenode -format

6：开启namenode

sbin/hadoop-daemon.sh start namenode

7:开启datanode

sbin/hadoop-daemon.sh start datanode sbin/yarn-daemon.sh start resourcemager sbin/yarn-daemon.sh start nodemanager

jps看hadoop的服务是否启动起来了。

10:hadoop外部访问网址 ip:50070 ip:8020

11:hadoop的小应用（wordcount）统计文本中单词的次数 vim b.txt

上传

bin/hdfs dfs -put b.txt /b.txt bin/hadoop jar share/hadoop/mapreduece/hadoop-mapreduce-examples-2.7.1.jar wordcount /b.txt /output bin/hdfs dfs -ls /output bin/hdfs dfs -text /output/part*

hadoop是一个框架 hadoop生态圈的介绍 1：HDFS：分布式文件存储系统 namenode:存放文件的元数据(元数据是：文件创建的时间，文件的权限，等，，，) datanode:存放文件的真正数据 hdfs中是以块的方式进行存储的，每个块的大小为128mb

2：mapreduce：并行的分布式 map：并行传输数据 reduce：统计每个并行数据的结果进行整合

3：yarn:hadoop1.0是没有yarn框架的 yarn是负责资源的有点像是电脑的内存负责资源的调度 resourcemanager：统计并管理多单台的结果。进行调度 nodemanager：单台电脑的资源管理

hadoop用在分析大量的数据，并行处理传输数据把数据进行分隔成多份数据，hadoop有较高的容错性，它把数据分三份进行存储在不同的电脑上。

最新回复(0)