Hadoop和Couchbase结合使用的技巧(2)

日期：2020-08-22 栏目：程序人生浏览：次

如果您尚未安装 Hadoop，最简单的方法是使用一个 Cloudera 安装。为了保持 Hadoop、Sqoop 和 Couchbase 之间的兼容性，最好的解决方案是使用 CDH3 安装（参阅参考资料）。为此，您需要使用 Ubuntu 10.10 到 11.10 版。更高的 Ubuntu 版本会引入不兼容问题，因为它们不再支持 Cloudera Hadoop 安装所需的一个包。

在安装之前，请确保已经安装了一个 Java™ 虚拟机，确保在 JAVA_HOME 变量中为 JDK 配置了正确的主目录。请注意，您必须拥有完整的 Java 开发工具包，而不只是拥有 Java 运行时环境 (JRE)，因为 Sqoop 将代码编译为 Couchbase Server 与 Hadoop 之间的导出和导入数据。

要在 Ubuntu 和类似的系统上使用 CDH3 安装，您需要执行以下步骤：

1、下载 CDH3 配置包。这会将 CDH3 源文件的配置添加到 apt 存储库中。

2、更新您的存储库缓存：$ apt-get update。

3、。安装主要 Hadoop 包：$ apt-get install hadoop-0.20。

4、安装 Hadoop 组件（参见清单 1）

清单 1. 安装 Hadoop 组件　

$ for comp in namenode datanode secondarynamenode jobtracker tasktracker do apt-get install hadoop-0.20-$comp done

5、编辑配置文件，以确保您设置了核心组件。

6、编辑 /etc/hadoop/conf/core-site.xml，使其如清单 2 所示。

清单 2. 编辑后的 /etc/hadoop/conf/core-site.xml 文件

<configuration> <property> <name>fs.default.name</name> <value>hdfs://localhost:9000</value> </property> </configuration>

这将配置存储数据的默认 hdfs 位置。

编辑 /etc/hadoop/conf/hdfs-site.xml（参见清单 3）。

清单 3. 编辑后的 /etc/hadoop/conf/hdfs-site.xml 文件

<configuration> <property> <name>dfs.replication</name> <value>1</value> </property> </configuration>

这支持复制存储的数据。

编辑 /etc/hadoop/conf/mapred-site.xml（参见清单 4）。

清单 4. 编辑后的 /etc/hadoop/conf/mapred-site.xml 文件

<configuration> <property> <name>mapred.job.tracker</name> <value>localhost:9001</value> </property> </configuration>

这实现了 MapReduce 的作业跟踪器。

7、最后，编辑 Hadoop 环境，使其正确地指向 /usr/lib/hadoop/conf/hadoop-env.sh 中您的 JDK 安装目录。其中会有一个注释掉的 JAVA_HOME 变量行。您应该取消注释它，并将它设置为您的 JDK 位置。例如：export JAVA_HOME=/usr/lib/jvm/java-1.6.0-openjdk。

8、现在，在您的系统上启动 Hadoop。最简单的方法是使用 start-all.sh 脚本：$ /usr/lib/hadoop/bin/start-all.sh。

假设所有设置均已正确配置，您现在应有一个正在运行的 Hadoop 系统。

转载注明出处：http://www.heiqu.com/46d1805b0843d2593122f7e8650be7f3.html

Hadoop和Couchbase结合使用的技巧(2)

相关推荐