Hadoop和Couchbase结合使用的技巧(2)

如果您尚未安装 Hadoop,最简单的方法是使用一个 Cloudera 安装。为了保持 Hadoop、Sqoop 和 Couchbase 之间的兼容性,最好的解决方案是使用 CDH3 安装(参阅参考资料)。为此,您需要使用 Ubuntu 10.10 到 11.10 版。更高的 Ubuntu 版本会引入不兼容问题,因为它们不再支持 Cloudera Hadoop 安装所需的一个包。

在安装之前,请确保已经安装了一个 Java™ 虚拟机,确保在 JAVA_HOME 变量中为 JDK 配置了正确的主目录。请注意,您必须拥有完整的 Java 开发工具包,而不只是拥有 Java 运行时环境 (JRE),因为 Sqoop 将代码编译为 Couchbase Server 与 Hadoop 之间的导出和导入数据。

要在 Ubuntu 和类似的系统上使用 CDH3 安装,您需要执行以下步骤:

1、下载 CDH3 配置包。这会将 CDH3 源文件的配置添加到 apt 存储库中。

2、更新您的存储库缓存:$ apt-get update。

3、。安装主要 Hadoop 包:$ apt-get install hadoop-0.20。

4、安装 Hadoop 组件(参见 清单 1)

清单 1. 安装 Hadoop 组件 

$ for comp in namenode datanode secondarynamenode jobtracker tasktracker do apt-get install hadoop-0.20-$comp done

5、编辑配置文件,以确保您设置了核心组件。

6、编辑 /etc/hadoop/conf/core-site.xml,使其如 清单 2 所示。

清单 2. 编辑后的 /etc/hadoop/conf/core-site.xml 文件

<configuration> <property> <name>fs.default.name</name> <value>hdfs://localhost:9000</value> </property> </configuration>

这将配置存储数据的默认 hdfs 位置。

编辑 /etc/hadoop/conf/hdfs-site.xml(参见 清单 3)。

清单 3. 编辑后的 /etc/hadoop/conf/hdfs-site.xml 文件

<configuration> <property> <name>dfs.replication</name> <value>1</value> </property> </configuration>

这支持复制存储的数据。

编辑 /etc/hadoop/conf/mapred-site.xml(参见 清单 4)。

清单 4. 编辑后的 /etc/hadoop/conf/mapred-site.xml 文件

<configuration> <property> <name>mapred.job.tracker</name> <value>localhost:9001</value> </property> </configuration>

这实现了 MapReduce 的作业跟踪器。

7、最后,编辑 Hadoop 环境,使其正确地指向 /usr/lib/hadoop/conf/hadoop-env.sh 中您的 JDK 安装目录。其中会有一个注释掉的 JAVA_HOME 变量行。您应该取消注释它,并将它设置为您的 JDK 位置。例如:export JAVA_HOME=/usr/lib/jvm/java-1.6.0-openjdk。

8、现在,在您的系统上启动 Hadoop。最简单的方法是使用 start-all.sh 脚本:$ /usr/lib/hadoop/bin/start-all.sh。

假设所有设置均已正确配置,您现在应有一个正在运行的 Hadoop 系统。

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:http://www.heiqu.com/46d1805b0843d2593122f7e8650be7f3.html