个人历时3天遭遇各种问题才安装好,虽然网上很多教程,但是还是自己写一个总结一下
转载请注明出处:http://hanlaiming.freetzi.com/?p=77
1.实验环境
Ubuntu12.04
Hadoop1.2.1
Java1.6.0_13
2.实验准备
1.在所有机器上安装ubuntu12.04,过程不赘述。
在安装过程中命名所有的用户名是hadoop,机器名分别为minglaihan,node1,node2,其中minglaihan作为主节点,其他两个是从节点。
2.在所有机器上执行:
sudo gedit etc/hosts
添加如下地址:
192.168.1.104 minglaihan
192.168.1.109 node1
192.168.1.110 node2
3.保证你的用户拥有root级别
用gedit或者vim,
sudo gedit etc/sudoers
在root ALL=(ALL:ALL) ALL下添加hadoop ALL=(ALL:ALL) ALL。
3.安装过程
-
安装java
三台机器上都执行:
指令:cd ~/java
unzip jdk-6u13-linux-i586.zip
chmod +x jdk-6u13-linux-i586.bin
sudo ./ jdk-6u13-linux-i586.bin
接下来按Enter以及yes就可以了
Java安装好之后,在bash.bashrc里添加java路径
sudo gedit etc/bash.bashrc
添加:export JAVA_HOME=/home/hadoop/java/jdk1.6.0_13
export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
export PATH=$PATH:$JAVA_HOME/bin
然后就可以查看java –version。
-
安装ssh
三台机器上都执行:
sudo apt-get install ssh
安装完成后执行ssh localhost即可登录自身的ssh,
exit退出
-
配置ssh无密码登陆
Ssh的一个重要特点就是可以远程访问,接下来我们实现相互访问不需要密码。
在所有机器上执行:
cd ~/.ssh
ssh-keygen -t rsa -P “”之后一直按回车,然后可以看见提示生成密钥。
将id_rsa.pub追加到authorized_keys授权文件中
cat id_rsa.pub >> authorized_keys
然后在主节点minglaihan上执行:
进入/home/hadoop/.ssh目录中,复制authorized_keys到node1的.ssh文件夹中
scp authorized_keys hadoop@node1:/home/hadoop/.ssh
scp authorized_keys hadoop@node2:/home/hadoop/.ssh
接下来使用ssh node1和ssh node2就可以无密码访问了
-
安装hadoop
首先在所有机器上执行解压缩操作
tar zxvf hadoop-1.2.1.tar.gz
然后开始修改hadoop/conf里面的配置文件
① core-sie.xml
<configuration>
<property>
<name>hadoop.tmp.dir</name>
<value>/home/hadoop/hadoop-1.2.1/tmp</value>
<description>A base for other temporary directories.</description>
</property>
<property>
<name>fs.default.name</name>
<value>hdfs://minglaihan:9000</value>
<description>
The name of the default file system. A URI whose scheme and authority determine the FileSystem implementation. The uri’s scheme determines the config property (fs.SCHEME.impl) naming the FileSystem implementation class. The uri’s authority is used to determine
the host, port, etc. for a filesystem.
</description>
</property>
</configuration>
② hadoop-env.sh
添加:export JAVA_HOME=/home/hadoop/java/jdk1.6.0_13
③ hdfs-site.xml
<configuration>
<property>
<name>dfs.replication</name>
<value>3</value>
<description>
Default block replication. The actual number of replications can be specified when the file is created. The default is used if replication is not specified in create time.
</description>
</property>
<property>
<name>dfs.name.dir</name>
<value>/home/hadoop/hadoop-1.2.1/hdfs/name</value>
<description>
</description>
</property>
<property>
<name>dfs.data.dir</name>
<value>/home/hadoop/hadoop-1.2.1/hdfs/data</value>
<description>
</description>
</property>
</configuration>
④ mapred-site.xml
<configuration>
<property>
<name>dfs.replication</name>
<value>3</value>
<description>
Default block replication. The actual number of replications can be specified when the file is created. The default is used if replication is not specified in create time.
</description>
</property>
<property>
<name>dfs.name.dir</name>
<value>/home/hadoop/hadoop-1.2.1/hdfs/name</value>
<description>
</description>
</property>
<property>
<name>dfs.data.dir</name>
<value>/home/hadoop/hadoop-1.2.1/hdfs/data</value>
<description>
</description>
</property>
</configuration>
⑤ master
minglaihan
⑥ slaves
node1
node2
-
启动hadoop
cd ~/hadoop-1.2.1
首先格式化namenode
bin/hadoop namenode –format
然后启动所有节点
bin/start-all.sh
用jps查看当前hadoop启动的进程
jps
如果如果有Namenode,SecondaryNameNode,TaskTracker,DataNode,JobTracker,Jps六个进程表示已经启动成功。
当然我在这一步卡了很久,始终有各种各样的问题,在这个过程中也会学到很多,所以遇到有namenode或者datanode没启动,主要的处理方法就是清除tmp和logs文件夹,然后每次格式化后查看logs,根据报错查找问题。
stop-all.sh停止所有进程
此时在浏览器中查看minglaihan:50030,可以看到hadoop的mapreduce管理界面
-
wordcount测试
在home主目录下创建一个装有无数单词的文本,例如test.txt
将test.txt传输到hdfs系统的input里,
bin/hadoop fs -copyFromLocal home/hadoop/test.txt input
在hadoop文件夹下执行:
hadoop jar hadoop-examples-1.2.1.jar wordcount input output
将输出结果传到output里
此时mapreduce会显示执行信息,执行完毕后,用指令查看
hadoop fs –cat output/part-r-00000
显示计算单词结果
至此,hadoop环境基本安装,期间遇到各种问题不要放弃。。。
分享到:
相关推荐
利用VMWare虚拟机建立3台ubuntu虚拟系统,在此基础上搭建的hadoop完全分布式环境,本人亲测可行
Ubuntu_Hadoop分布部署.docx
ubuntu环境下hadoop环境搭建(伪分布模式),是本人学习大数据以来对于hadoop环境搭建的一些经验,现在写成文档的形式分享给大家。
这是本人在ubuntu12.04上安装hadoop伪分布的总结文件,参考了很多资料,然后自己总结了一下,希望对需要的人有帮助
010.Hadoop在Ubuntu下安装Hadoop.mp4 011.Hadoop配置独立模式.mp4 012.Hadoop配置伪分布模式.mp4 013.Hadoop配置完全分布模式之修改虚拟机名称和目录.mp4 014.Hadoop配置完全分布模式之修改登录提示和主机名.mp4 -...
Hadoop伪分布下的hive安装及错误的更改
最近在虚拟机上安装的hive,本人也在不断学习中,欢迎有问题的同学们多多交流。
Ubuntu 16.04 Hadoop-2.7.3全分布模式 + eclipse hadoop-附件资源
Ubantu-hadoop2.6.0集群搭建,详细介绍ubuntu下的hadoop搭建过程
hadoop本地、伪分布、真分布、HA四种模式的实践文档。基于vmware搭建的环境。
spark要配合Hadoop的hdfs使用,然而Hadoop的特点就是分布式,在一台主机上搭建集群有点困难,百度后发现可以使用docker构建搭建,于是开搞: github项目:https://github.com/kiwenlau/hadoop-cluster-docker ...
hadoop2 - 虚拟机VMWare - Linux(ubuntu) ,单节点伪分布环境搭建完整手册
笔者在公司实习期间所做的一个Hadoop集群搭建的详细教程,在这里分享给大家。此教程包含搭建的每一个步骤,如果有问题可以留言,大家一起讨论。
用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。 起源:Google的集群系统 Google的数据中心使用廉价的Linux PC机组成集群,在上面运行各种应用。即使是分布式开发...
hadoop2 - 虚拟机VMWare - Linux(ubuntu) ,单节点伪分布环境搭建快速手册,同之前上传的doc文档配套。
Hadoop2.2.0版本 - 虚拟机VMWare - Linux(ubuntu) ,多节点伪分布环境搭建详细操作手册,可以直接用于完全分布。每一步都有自己详细操作记录和相关说明,几夜风雨的辛劳搭建和测试。 此操作手册搭建的集群详细说明: ...
Hadppo全分布模式相关配置文件。我使用的系统是ubuntu系统。相关配置的博客:http://blog.csdn.net/lvsaixia/article/details/41388463
网上教程虽然多,但是有些教程比较老,许多教程忽略许多安装过程中的细节,比如添加用户的权限,文件权限,小编在安装过程遇到许多这样的问题所以想写一篇完整的教程,希望对初学Hadoop的人有一个直观的了解,我们...
Hadoop,分布式的大数据存储和计算, 免费开源!有Linux基础的同学安装起来比较顺风顺水,写几个配置文件就可以启动了,本人菜鸟,所以写的比较详细。为了方便,本人使用三台的虚拟机系统是Ubuntu-12。设置虚拟机的...
'[IT18掌www.it18zhang.com]012.Hadoop Windows下免Cygwin伪分布安装.pptx' '[IT18掌www.it18zhang.com]Hbase.pptx' '[IT18掌www.it18zhang.com]013.Hadoop Windows-native启动异常解决与多桌面.pptx' '[IT18掌...