在HDFS集群基础上搭建Map/Reduce集群

1. 硬件:VMWARE 虚拟机   *  4台,256M内存,20G硬盘
    操作系统: RHEL_64_5.4
 
2. 基本软件架构部署:
               IP地址               主机名称                              目录                                          功能
    1. 192.168.204.128    master                          /data/Hadoop/name                        namenode节点
                                                                            /data/hadoop/mapred_local_dir      jobtracker 节点
    2. 192.168.204.129    secondarynamenode    /data/hadoop/namesecondary       secondarynamenode节点

    3. 192.168.204.130     slave01                       /data/hadoop/data01、data02        datanode节点
                                                                           /data/hadoop/mapred_local_dir       tasktracker 节点
    4. 192.168.204.134     slave02                       /data/hadoop/data01、data02        datanode节点
                                                                           /data/hadoop/mapred_local_dir       tasktracker 节点

3. 配置文件
    core-site.sml
    <configuration>
        <property>
                <name>hadoop.tmp.dir</name>
                <value>/data/hadoop/tmp</value>
        </property>
        <property>
                <name>fs.default.name</name>
                <value>hdfs://192.168.204.128:9000</value>
        </property>
     </configuration>

    hdfs-site.xml
    <configuration>
        <property>
                <name>dfs.replication</name>
                <value>2</value>
        </property>
        <property>
                <name>dfs.name.dir</name>
                <value>/data/hadoop/name</value>
        </property>
        <property>
                <name>dfs.data.dir</name>
                <value>/data/hadoop/data01,/data/hadoop/data02</value>
        </property>
        <property>
                <name>fs.checkpoint.dir</name>
                <value>/data/hadoop/namesecondary</value>
        </property>
    </configuration>
 
     mapred-site.xml
     <configuration>
        <property>
                <name>mapred.job.tracker</name>
                <value>192.168.204.128:8021</value>
        </property>
        <property>
                <name>mapred.local.dir</name>
                <value>/data/hadoop/mapred_local_dir</value>
        </property>
        <property>
                <name>mapred.system.dir</name>
                <value>mapred_system_dir</value>
        </property>
        <property>
                <name>mapred.tasktracker.map.tasks.maximum</name>
                <value>2</value>
        </property>
        <property>
                <name>mapred.tasktracker.reduce.tasks.maximum</name>
                <value>2</value>
        </property>
        <property>
                <name>mapred.child.java.opts</name>
                <value>-Xmx128m</value>
        </property>
     </configuration>
   
     masters (secondarynamenode)
     192.168.204.129

     slaves (datanode 和 tasktracker节点)
     192.168.204.130
     192.168.204.134
    
4. 修改hosts 系统文件
    # vi /etc/hosts
     192.168.204.128         master
     192.168.204.130         slave01
     192.168.204.134         slave02
     192.168.204.129         secondrynamenode
 
     其他诸如ssh配置,各个服务器上的配置文件保持一致等,此处省略。。。。。。。。。。
  
5. 启动hadoop
    1)格式化namenode
          在master服务器上,执行
          # ./hadoop namenode -format
    2)启动hdfs集群
          # ./start-dfs.sh
              正常情况下,
              在master服务器上,将会启动 namenode进程
              在sencondarynamenode服务器,将会启动secondarynamenode进程
              在slave01,slave02服务器上,将会启动datanode进程
              # ps aux | grep java
              /usr/local/jdk1.6.0_26/bin/java -Dproc_namenode -Xmx128m                  (master)
              /usr/local/jdk1.6.0_26/bin/java -Dproc_datanode -Xmx128m                    (slave01)
              /usr/local/jdk1.6.0_26/bin/java -Dproc_datanode -Xmx128m                    (slave02)
              /usr/local/jdk1.6.0_26/bin/java -Dproc_secondarynamenode -Xmx128m  (secondarynamenode)

       3)启动map/reduce集群
            # ./start-mapred.sh
               正常情况下,
               在master服务器上,将会启动 jobtracker 进程
               在slave01、slave02服务器上,将会启动 tasktracker进程
                # ps aux | grep java
                /usr/local/jdk1.6.0_26/bin/java -Dproc_jobtracker -Xmx128m       (master)
                /usr/local/jdk1.6.0_26/bin/java -Dproc_tasktracker -Xmx128m     (slave01)
                /usr/local/jdk1.6.0_26/bin/java -Dproc_tasktracker -Xmx128m     (slave02)

          注意查看各个日志文件是否有报错。
          mapred-site.xml配置文件的参数,查看手册。

          以上内容,参考《hadoop权威指南》

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:http://www.heiqu.com/ppddw.html