5.去官网下载并解压Hadoop。修改hadoop配置文件,位于hadoop/etc/hadoop /下面,分别有:
•slaves。写入DateNode的机器,因为之前修改了域名解析文件,可以直接写域名,不用写IP了。
•core-site.xml。Hadoop的核心配置文件
fs.defaultFS,默认文件系统的主机和端口,这里的文件系统就是hdfs。
hadoop.tmp.dir hadoop的临时文件路径,不设置则会使用系统临时文件路径,系统重启后就丢失了。
<configuration> <property> <name>fs.defaultFS</name> <value>hdfs://Master:9000</value> </property> <property> <name>hadoop.tmp.dir</name> <value>file:/usr/local/hadoop/tmp</value> <description>Abase for other temporary directories.</description> </property> </configuration>
•hdfs-site.xml。HDFS的配置文件
dfs.namenode.secondary.http-address。SecondNameNode的机器和端口
dfs.replication。HDFS系统保存的文件副本数。
dfs.namenode.name.dir,dfs.datanode.data.dir。NameNode和DataNode数据在原本文件系统中的存放位置。
<configuration> <property> <name>dfs.namenode.secondary.http-address</name> <value>Master:50090</value> </property> <property> <name>dfs.replication</name> <value>1</value> </property> <property> <name>dfs.namenode.name.dir</name> <value>file:/usr/local/hadoop/tmp/dfs/name</value> </property> <property> <name>dfs.datanode.data.dir</name> <value>file:/usr/local/hadoop/tmp/dfs/data</value> </property> </configuration>
•mapred-site.xml。MapReuce的配置文件
mapreduce.framework.name。MapReuce的资源管理系统。这个选yarn,原本是MapReuce自己进行分布式计算时的资源管理,后来发现效率不足便分割开来重新开发了一套框架。
mapreduce.jobhistory.address。MapReuce的任务日志系统,指定机器和端口。
mapreduce.jobhistory.webapp.address。任务日志系统web页面所使用的机器和端口,通过这个可以在web页面中查看任务日志系统。
<configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> <property> <name>mapreduce.jobhistory.address</name> <value>Master:10020</value> </property> <property> <name>mapreduce.jobhistory.webapp.address</name> <value>Master:19888</value> </property> </configuration>
内容版权声明:除非注明,否则皆为本站原创文章。