Hadoop on Windows With Eclipse(伪分布式)

Hadoop是一个强大的架构,用于自动并行化的计算任务。不幸的是某些编程对于它是个挑战。Hadoop程序让人难以理解和调试。有一种方法可以在开发人员的机器上本地运行一个简化版的Hadoop集群使之更容易一些。本教程描述如何设置这样一个集群运Windows平台上。它还描述了如何使用Eclipse集成这个集群,一个主要的Java开发环境。

2.安装前的准备

在我们开始之前,要确保以下组件安装在了你的机器上。

l Java 1.7.0_17

l Eclipse-SDK-4.2.2

注:本教程测试环境是Hadoop1.0.4版本,如果你使用的是其他版本可以酌情去安装

为了确保不出现问题,建议都使用最新版本,我这两个版本都是最新下载的。

2.1 安装Cygwin

安装完预安装软件后,下一步就是安装Cygwin环境。Cygwin是一个组从Unix上移植到Windows的包。因为Hadoop都是写在Unix平台上的,所以用Cygwin提供Hadoop的运行环境。

安装cygwin环境有以下步骤:

1) 首先从网站下载所需的安装文件

2) 点击下载文件,你会看到如下的截图-本教程版本为1.7.17-1版本

CygwinInstaller

3) 当你看到上面的截图的时候,点击下一步按钮你会看到屏幕上有选择包的界面。要确保你选择了net category里的”openssh”。这个包是确保Hadoop集群正常运作和Eclipse的插件。

4)你选择完这些包后,点击下一步,完成安装。

3.设置环境变量

下一步是设置路径环境变量,以至于Eclipse IDE可以访问Cygwin命令。

设置环境变量需要以下步骤:

1) 我的计算机右键->属性

2)当你看到这个属性对话框,点击环境变量按钮如下所示

3)当环境变量对话框出现时,单击路径变量位于系统变量栏,然后单击Edit按钮。

4)当编辑对话框在Path末尾添加以下文本

$ ;d:\cygwin\bin;d:\cygwin\usr\sbin

注:这个路径要根据你cygwin安装到那个目录

5)OK!!!

4 设置SSH守护进程

两个Hadoop的脚本和Eclipse的插件需要无密码的SSH来操作。本节描述了在Cygwin环境如何设置。

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:http://www.heiqu.com/ce896c4d6d843ef3fd9ce4ba918628ec.html