NUMA导致的MySQL服务器SWAP问题分析 (2)

4、通过解析上面文件,对Node 0和Node 1节点分配的页面数量做统计,可以计算出Node 0通过interleave方式分配了约114.4G内存,Node 1通过interleave方式分配了约64.7G内存
说明innodb_numa_interleave开关是实际生效的,但是即使mysql使用了interleave的分配方式,仍然存在不均衡的问题

5、通过innodb_numa_interleave相关的源码,可以看出当开关开启时,MySQL调用linux的set_mempolicy函数指定MPOL_INTERLEAVE策略跨节点来分配内存set_mempolicy(MPOL_INTERLEAVE, numa_all_nodes_ptr->maskp, numa_all_nodes_ptr->size)
当开关关闭时,set_mempolicy(MPOL_DEFAULT, NULL, 0),使用默认的本地分配策略

my_bool srv_numa_interleave = FALSE;
#ifdef HAVE_LIBNUMA
#include <numa.h>
#include <numaif.h>
struct set_numa_interleave_t
{
set_numa_interleave_t()
{
if (srv_numa_interleave) {
ib::info() << "Setting NUMA memory policy to"
" MPOL_INTERLEAVE";
if (set_mempolicy(MPOL_INTERLEAVE,
numa_all_nodes_ptr->maskp,
numa_all_nodes_ptr->size) != 0) {
ib::warn() << "Failed to set NUMA memory"
" policy to MPOL_INTERLEAVE: "
<< strerror(errno);
}
}
}
~set_numa_interleave_t()
{
if (srv_numa_interleave) {
ib::info() << "Setting NUMA memory policy to"
" MPOL_DEFAULT";
if (set_mempolicy(MPOL_DEFAULT, NULL, 0) != 0) {
ib::warn() << "Failed to set NUMA memory"
" policy to MPOL_DEFAULT: "
<< strerror(errno);
}
} }}; 【测试对比开启innodb_numa_interleave开关和numactl –interleave=all启动mysqld进程两种方式NUMA节点的内存分配情况】 场景一、numactl --interleave=all启动mysqld进程的方式

1、 修改systemd配置文件,删除my.cnf中innodb_numa_interleave=on开关配置,重启MySQL服务

/usr/bin/numactl --interleave=all /usr/sbin/mysqld --daemonize --pid-file=http://www.likecs.com/var/run/mysqld/mysqld.pid $MYSQLD_OPTS

2、 运行select count(*) from test.sbtest1语句,这个表中有2亿条记录,运行14分钟,会将表中的数据读到buffer pool中

NUMA导致的MySQL服务器SWAP问题分析


3、运行结束后,分析numa_maps文件可以看到mysqld进程采用了interleave跨节点访问的分配方式,两个Node间分配的内存大小基本一致

7f9a3c5b3000 interleave:0-1 anon=1688811 dirty=1688811 N0=842613 N1=846198 kernelpagesize_kB=4
7f9a3c5b3000 interleave:0-1 anon=2497435 dirty=2497435 N0=1247949 N1=1249486 kernelpagesize_kB=4

4、mysqld进程总的分配也是均衡的

NUMA导致的MySQL服务器SWAP问题分析

场景二、开启innodb_numa_interleave的方式

1、增加my.cnf中innodb_numa_interleave=on开关配置,重启MySQL服务,执行与场景一相关的SQL语句

2、运行结束后,分析numa_maps文件可以看到mysqld进程采用interleave方式分配的在不同Node间是基本平衡的

7f71d8d98000 interleave:0-1 anon=222792 dirty=222792 N0=111652 N1=111140 kernelpagesize_kB=4
7f74a2e14000 interleave:0-1 anon=214208 dirty=214208 N0=107104 N1=107104 kernelpagesize_kB=4
7f776ce90000 interleave:0-1 anon=218128 dirty=218128 N0=108808 N1=109320 kernelpagesize_kB=4

3、不过仍有部分内存使用了default的本地分配策略,这部分内存全部分配到了Node 0上

7f31daead000 default anon=169472 dirty=169472 N0=169472 kernelpagesize_kB=4

4、最终mysqld进程分配的内存Node 0 比Node 1大了约1G

NUMA导致的MySQL服务器SWAP问题分析

【MySQL5.7.23启用numactl –interleave=all的方法】

MySQL5.7版本不再使用mysqld_safe文件,所以启用numactl –interleave=all的方式,与MySQL 5.6的方法不同,总结如下:

1、修改vim /etc/my.cnf文件,删除innodb_numa_interleave配置项 2、修改systemd 的本地配置文件,vim /usr/lib/systemd/system/mysqld.service,增加/usr/bin/numactl --interleave=all命令 # Start main service ExecStart=http://www.likecs.com/usr/bin/numactl --interleave=all /usr/sbin/mysqld --daemonize --pid-file=http://www.likecs.com/var/run/mysqld/mysqld.pid $MYSQLD_OPTS 3、停止MySQL服务 systemctl stop mysqld.service 4、重新加载配置文件 systemctl daemon-reload 5、写入硬盘,防止数据丢失 sync;sync;sync 6、延迟10秒 sleep 10 7、清理pagecache、dentries和inodes sysctl -q -w vm.drop_caches=3 8、启动MySQL服务 systemctl start mysqld.service 9、验证是否生效, 首先确认show global variables like ' innodb_numa_interleave';开关为关闭状态 正常情况下mysqld进程会全部采用interleave跨节点访问的分配方式,如果可以查询到其他访问方式的信息,表示interleave方式没有正常生效 less /proc/`pidof mysqld`/numa_maps|grep -v 'interleave' 【结论】

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/wssjzf.html