hadoop性能调优

日期：2022-05-18 栏目：程序人生浏览：次

2. Linux系统层面上的配置调优
2.1. 文件系统的配置
a) 关闭文件在被操作时会记下时间戳:noatime和nodiratime
b) 选择I/O性能较好的文件系统（Hadoop比较依赖本地的文件系统）

2.2. Linux文件系统预读缓冲区大小
命令blockdev

2.3. 去除RAID和LVM

2.4. 增大同时打开的文件数和网络连接数
ulimit
net.core.somaxconn

2.5. 关闭swap分区
在Hadoop中，对于每个作业处理的数据量和每个Task中用到的各种缓冲，用户都是完全可控的。
/etc/sysctl.conf

2.6. I/O调度器选择
详情见AMD的白皮书

3. Hadoop平台内参数调优
Hadoop相关可配置参数共有几百个，但是其中只有三十个左右会对其性能产生显著影响。
3.1. 计算资源优化
a) 设置合理的slot（资源槽位）
mapred.tasktracker.map.tasks.maximum / mapred.tasktracker.reduce.tasks.maximum
参数说明：每个TaskTracker上可并发执行的Map Task和Reduce Task数目
默认值：都是2
推荐值：根据具体的节点资源来看，推荐值是(core_per_node)/2~2*(cores_per_node)
单位：无

3.2. 节点间的通信优化
a) TaskTracker和JobTracker之间的心跳间隔
这个值太小的话，在一个大集群中会造成JobTracker需要处理高并发心跳，可能会有很大的压力。
建议集群规模小于300时，使用默认值3秒，在此基础上，集群规模每增加100台，会加1秒。
b) 启用带外心跳(out-of-band heartbeat)
mapreduce.tasktracker.outofband.heartbeat
参数说明：主要是为了减少任务分配延迟。它与常规心跳不同，一般的心跳是一定时间间隔发送的，而带外心跳是在任务运行结束或是失败时发送，这样就能在TaskTracker节点出现空闲资源的时候能第一时间通知JobTracker。

3.3. 磁盘块的配置优化
a) 作业相关的磁盘配置：mapred.local.dir
参数说明：map本地计算时所用到的目录，建议配置在多块硬盘上
b) 存储相关的磁盘配置（HDFS数据存储）：dfs.data.dir
参数说明：HDFS的数据存储目录，建议配置在多块硬盘上，可提高整体IO性能
例如：

<property> <name>dfs.name.dir</name> <value>/data1/hadoopdata/mapred/jt/,/data2/hadoopdata/mapred/jt/</value> </property>

转载注明出处：https://www.heiqu.com/zzjpdd.html

hadoop性能调优

相关推荐