实现Hadoop中的机架感知

日期：2020-09-22 栏目：程序人生浏览：次

Hadoop中声明是有机架感知的功能，能够提高hadoop的性能。平时我们使用的hadoop集群，实际上是从来没有使用上这个功能的。 hadoop中所说的机架感知的实现实际上这样的：

hadoop启动时会检查hadoop-default.xml和hadoop-site.xml中的一个配置选项：topology.script.file.name，如果这个选项不为空，hadoop就会认为这是一个可运行脚本，于是在每检测到一个slave连接上jobtracker时就会把这个slave的IP地址作为参数传给这个脚本，然后期待这个脚本的返回值返回这台slave所述的rack名。而这个脚本内部具体是如何决定slave和rack的映射hadoop是不关心的。所以，哪台机器属于那个rack，其实是由写这个脚本的人决定。

另外，和topology.script.file.name相对应的还有另外一个配置选项：topology.script.number.args，这个选项的设定了以上脚本所能接受的最大参数个数，因为脚本被调用时会接受到不止一个参数，每个参数都是一台机器的IP地址。

实现步骤

1, 在jobtracker的hadoop-site.xml配置文件中加入一下配置选项：

<property>
<name>topology.script.file.name</name>
<value>/path/to/rackmap.sh</value>
<description> The script name that should be invoked to resolve DNS names to
NetworkTopology names. Example: the script would take host.foo.bar as an
argument, and return /rack1 as the output.
</description>
</property>

<property>
<name>topology.script.number.args</name>
<value>1000</value>
<description> The max number of args that the script configured with
topology.script.file.name should be run with. Each arg is an
IP address.
</description>
</property>

编写rackmap.sh脚本，为每一个地址输出其所属的rack
重启jobtracker 。

转载注明出处：http://www.heiqu.com/4ec04adff15d15db3d99d20bdb28d8c3.html

实现Hadoop中的机架感知

相关推荐