超详细解说Hadoop伪分布式搭建--实战验证【转】 (2)

这条命令完成后,会在当前文件夹下面的 .ssh 文件夹下创建 id_dsa 和 id_dsa.pub 两个文件,这是 SSH 的一对私钥和公钥,把 id_dsa.pub (公钥)追加到授权的 key 中去,输入如下命令:

cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys

至此,免密码登陆本机已经配置完毕。

说明:一般来说,安装SSH时会自动在当前用户下创建.ssh这个隐藏文件夹,一般不会直接看到,除非安装好了以后,在命令行使用命令ls才会看到。

③ 输入 ssh localhost ,显示登陆成功信息。

第六步: 配置Hadoop伪分布式模式

现在进入到安装 Hadoop 的文件夹,找到里面的 conf 文件夹,点击进去。

配置 hadoop 环境文件 hadoop-env.sh

打开文件,找到某行有 ”# export JAVA_HOME = ...” 字样的地方,去掉 “#” ,然后在等号后面填写你自己的 JDK 路径,比如像我自己的 JDK 路径,那就改为了 如下所示

“export JAVA_HOME=http://www.likecs.com/usr/jvm/jdk1.7.0_40”

配置 Hadoop 的核心文件 core-site.xml

打开文件,会发现标签 <configuration></configuration> 中是空的,在空的地方添加如下配置

<property>

<name>fs.default.name</name>

<value>hdfs://localhost:9000</value>

</property>

<property>

<name>dfs.replication</name>

<value>1</value>

</property>

<property>

<name>hadoop.tmp.dir</name>

<value>/home/baoshan/tmp</value>

</property>

(注意:在最后一个value值中,上面是baoshan,是因为那是我的用户名,所以你需要将那个修改为你自己的用户名)

配置 Hadoop 中 MapReduce 的配置文件 mapred-site.xml

打开文件,会发现标签 <configuration></configuration> 中是空的,在空的地方添加如下配置

<property>

<name>mapred.job.tracker</name>

<value>localhost:9001</value>

</property>

第七步: 格式化Hadoop文件系统HDFS并启动Hadoop

首次运行 hadoop 必须进行格式化 Hadoop 文件系统,以后运行即可跳过。打开命令行,进入安装了 Hadoop 的文件路径下,然后在命令行输入

bin/hadoop namenode -format

格式化文件系统,然后启动 Hadoop ,在命令行里面输入

bin/start-all.sh

验证是否正常启动,在命令行里面输入 jps ,然后回车,如果在命令行里面出现如下类似画面(因为前面的数字可以不同)

3235 NameNode

4113 Jps

3819 JobTracker

4059 TaskTracker

3721 SecondaryNameNode

3487 DataNode

则说明已经正常启动。如果以后需要关闭 Hadoop 的话,在 Hadoop 安装的文件夹路径下面在命令行输入

bin/stop-all.sh

来关闭 Hadoop 。

第八步: 跑一个Hadoop中自带的WordCount程序,来体验一把

步骤如下(我在自己平台上的,读者可仿照实验):

1) 准备一个文本文件

首先我在桌面,新建了一个空白文档 test ,在里面输入一段话,或是几一些什么 单 词什么的,保存。

2) 将文本文件上传到 dfs 文件系统中的 input 目录下,打开命令行,进入到安装 hadoop 的文件夹下,然后输入如下

bin/hadoop dfs -copyFromLocal /home/baoshan/桌面/test input

(注:如果 dfs 中不包含 input 目录的话就会自动创建一个)

3) 然后在命令行中输入如下命令,执行 WordCount 程序

bin/hadoop jar hadoop-examples-1.2.1.jar wordcount input output

(注:因为这个程序是 Hadoop 安装包里面自带的,就在 hadoop-examples-1.2.1.jar 中,后面的数字因为版本号的不同而不同,后面的 input 代表输入文件夹, output 代表输出文件夹 , 系统输出时会自动创建)

读者如果这个执行成功了,就会发现有很多输出信息,从屏幕上显示,当程序运行结束后。

4) 察看结果 在命令行里面输入

bin/hadoop dfs -cat output/part-r-00000

现在你就可以看见自己刚才输入文本里面的单词计数了。

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/zgdsxp.html