如果您尚未安装 Hadoop,最简单的方法是使用一个 Cloudera 安装。为了保持 Hadoop、Sqoop 和 Couchbase 之间的兼容性,最好的解决方案是使用 CDH3 安装(参阅参考资料)。为此,您需要使用 Ubuntu 10.10 到 11.10 版。更高的 Ubuntu 版本会引入不兼容问题,因为它们不再支持 Cloudera Hadoop 安装所需的一个包。
在安装之前,请确保已经安装了一个 Java™ 虚拟机,确保在 JAVA_HOME 变量中为 JDK 配置了正确的主目录。请注意,您必须拥有完整的 Java 开发工具包,而不只是拥有 Java 运行时环境 (JRE),因为 Sqoop 将代码编译为 Couchbase Server 与 Hadoop 之间的导出和导入数据。
要在 Ubuntu 和类似的系统上使用 CDH3 安装,您需要执行以下步骤:
1、下载 CDH3 配置包。这会将 CDH3 源文件的配置添加到 apt 存储库中。
2、更新您的存储库缓存:$ apt-get update。
3、。安装主要 Hadoop 包:$ apt-get install hadoop-0.20。
4、安装 Hadoop 组件(参见 清单 1)
清单 1. 安装 Hadoop 组件
$ for comp in namenode datanode secondarynamenode jobtracker tasktracker do apt-get install hadoop-0.20-$comp done5、编辑配置文件,以确保您设置了核心组件。
6、编辑 /etc/hadoop/conf/core-site.xml,使其如 清单 2 所示。
清单 2. 编辑后的 /etc/hadoop/conf/core-site.xml 文件
<configuration> <property> <name>fs.default.name</name> <value>hdfs://localhost:9000</value> </property> </configuration>这将配置存储数据的默认 hdfs 位置。
编辑 /etc/hadoop/conf/hdfs-site.xml(参见 清单 3)。
清单 3. 编辑后的 /etc/hadoop/conf/hdfs-site.xml 文件
<configuration> <property> <name>dfs.replication</name> <value>1</value> </property> </configuration>这支持复制存储的数据。
编辑 /etc/hadoop/conf/mapred-site.xml(参见 清单 4)。
清单 4. 编辑后的 /etc/hadoop/conf/mapred-site.xml 文件
<configuration> <property> <name>mapred.job.tracker</name> <value>localhost:9001</value> </property> </configuration>这实现了 MapReduce 的作业跟踪器。
7、最后,编辑 Hadoop 环境,使其正确地指向 /usr/lib/hadoop/conf/hadoop-env.sh 中您的 JDK 安装目录。其中会有一个注释掉的 JAVA_HOME 变量行。您应该取消注释它,并将它设置为您的 JDK 位置。例如:export JAVA_HOME=/usr/lib/jvm/java-1.6.0-openjdk。
8、现在,在您的系统上启动 Hadoop。最简单的方法是使用 start-all.sh 脚本:$ /usr/lib/hadoop/bin/start-all.sh。
假设所有设置均已正确配置,您现在应有一个正在运行的 Hadoop 系统。