《大数据原理与技术》实验一:Hadoop系统安装与运行

/ 0评 / 0

实验内容与要求

  1. 每人在自己本地电脑上正确安装和运行伪分布式 Hadoop系统。
  2. 安装完成后,自己寻找一组英文网页数据,在本机上运 行Hadoop系统自带的WordCount可执行程序文件,并 产生输出结果
  3. 实验结果提交:要求书写一个实验报告,其中包括
    1. 系统安装运行的情况
    2. 实验数据说明(下载的什么网页数据,多少个HTML或text文件)
    3. 程序运行后在Hadoop Web作业状态查看界面上的作业运行状态屏幕拷贝
    4. 实验输出结果开头部分的屏幕拷贝
    5. 实验体会

实验过程

安装运行环境

需要先安装两个东西,一个是SSH,一个是Java

因为我是在云服务器上做实验,SSH已经装好了,只需要装Java

先升级一下仓库

sudo yum update

我选择安装Java8,要安装openjdk-devel,因为后面要用到jps

sudo yum install java-1.8.0-openjdk-devel

创建用户

创建一个组叫hadoop-user,再创建一个用户叫hadoop

设置该用户的家目录在/home/hadoop下,并设置其账户密码

groupadd hadoop-user
useradd -g hadoop-user -d /home/hadoop hadoop
passwd hadoop

下载Hadoop

到官网找下载链接http://hadoop.apache.org/

目前最新版是2.10.0

创建一个叫hadoop_installs的目录来放安装包

cd /home/hadoop
mkdir hadoop_installs
cd hadoop_installs
wget https://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/hadoop-2.10.0/hadoop-2.10.0.tar.gz
tar -zxvf hadoop-2.10.0.tar.gz

注意!如果你出现以下错误,说明链接不对。

gzip: stdin: not in gzip format
tar: Child returned status 1
tar: Error is not recoverable: exiting now

下面这个地方,binary的链接指向的是一个HTML页面,如果你用这个链接wget,那下载下来的也是一个HTML文件。

应该点进去,找到mirror下的链接

配置环境变量

切换用户

su - hadoop

记得要带小横杠,带小横杠的su指令表示切换用户,同时切换工作目录,同时加载该用户的环境变量。不带小横杠则是仅切换用户。

修改的文件是~/.bashrc

vim ~/.bashrc

首先要清楚自己的Java安装在哪里,比如我的JAVA_HOME就在/usr/lib/jvm/java-1.8.0-openjdk下

而HADOOP_HOME就是刚才压缩包解压出来的文件夹路径。

除了设置JAVA_HOME和HADOOP_HOME以外,还要设置PATH

添加如下环境变量

export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk
export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin
export HADOOP_HOME=/home/hadoop/hadoop_installs/hadoop-2.10.0

重载配置文件

source ~/.bashrc

验证一下是否设置成功

java -version
echo $JAVA_HOME
whereis java
hadoop version

免密码SSH访问配置

根据实验指导手册来,目前只是单机实验,暂时用不上访问。

在主目录下:

ssh-keygen -t rsa
#全部选默认敲回车
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
chmod 0600 ~/.ssh/authorized_keys

使用wordcount

wordcount程序的路径在$HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.10.0.jar

先找一些文本

mkdir input
cp $HADOOP_HOME/*.txt input
ls -l input
hadoop jar /home/hadoop/hadoop-2.10.0/share//hadoop/mapreduce/hadoop-mapreduce-examples-2.10.0.jar wordcount input output

输出结果会保存在output/part-r-00000里面

cat output/*

可以看到是有输出结果的

web端访问

通过IP加8088端口可以访问

发表评论

电子邮件地址不会被公开。 必填项已用*标注