Linux内存管理机制简单分析

Linux 2.6开始支持NUMA( Non-Uniform Memory Access )内存管理模式。在多个CPU的系统中,内存按CPU划分为不同的Node,每个CPU挂一个Node,其访问本地Node比访问其他CPU上的Node速度要快很多。
 通过numactl -H查看NUMA硬件信息,可以看到2个node的大小和对应的CPU核,以及CPU访问node的distances。如下所示CPU访问远端node的distances是本地node的2倍多。

[root@localhost ~]# numactl -H
available: 2 nodes (0-1)
node 0 cpus: 0 1 2 3 4 5 6 7 16 17 18 19 20 21 22 23
node 0 size: 15870 MB
node 0 free: 13780 MB
node 1 cpus: 8 9 10 11 12 13 14 15 24 25 26 27 28 29 30 31
node 1 size: 16384 MB
node 1 free: 15542 MB
node distances:
node  0  1
  0:  10  21
  1:  21  10

通过numastat查看NUMA的统计信息,包括内存分配的命中次数、未命中次数、本地分配次数和远端分配次数等。

[root@localhost ~]# numastat
                          node0          node1
numa_hit              2351854045      3021228076
numa_miss              22736854        2976885
numa_foreign            2976885        22736854
interleave_hit            14144          14100
local_node            2351844760      3021220020
other_node              22746139        2984941

Zone

Node下面划分为一个或多个Zone,为啥要有Zone,两个原因:1.DMA设备能够访问的内存范围有限(ISA设备只能访问16MB);2.x86-32bit系统地址空间有限(32位最多只能4GB),为了使用更大内存,需要使用HIGHMEM机制。

ZONE_DMA

地址段最低的一块内存区域,用于ISA(Industry Standard Architecture)设备DMA访问。在x86架构下,该Zone大小限制为16MB。

ZONE_DMA32

该Zone用于支持32-bits地址总线的DMA设备,只在64-bits系统里才有效。

ZONE_NORMAL

该Zone的内存被内核直接映射为线性地址并可以直接使用。在X86-32架构下,该Zone对应的地址范围为16MB~896MB。在X86-64架构下,DMA和DMA32之外的内存全部在NORMAL的Zone里管理。

ZONE_HIGHMEM

该Zone只在32位系统才有,通过建立临时页表的方式映射超过896MB的内存空间。即在需要访问的时候建立地址空间和内存的映射关系,在访问结束后拆掉映射关系释放地址空间,该地址空间可以用于其他HIGHMEM的内存映射。

通过/proc/zoneinfo可以查看Zone相关的信息。如下所示X86-64系统上两个Node,Node0上有DMA、DMA32和Normal三个Zone,Node1上只有一个Normal Zone。

[root@localhost ~]# cat /proc/zoneinfo |grep -E "zone| free|managed"
Node 0, zone      DMA
  pages free    3700
        managed  3975
Node 0, zone    DMA32
  pages free    291250
        managed  326897
Node 0, zone  Normal
  pages free    3232166
        managed  3604347
Node 1, zone  Normal
  pages free    3980110
        managed  4128056

Page

Page是Linux底层内存管理的基本单位,大小为4KB。一个Page映射为一段连续的物理内存,内存的分配和释放都要以Page为单位进行。进程虚拟地址到物理地址的映射也是通过Page Table页表进行,页表的每一项记录一个Page的虚拟地址对应的物理地址。

TLB

内存访问时需要查找地址对应的Page结构,这个数据记录在页表里。所有对内存地址的访问都要先查询页表,因此页表的访问次数是频率最高的。为了提高对页表的访问速度,引入了TLB(Translation Lookaside Buffer)机制,将访问较多页表缓存在CPU的cache里。因此CPU的性能统计里很重要的一项就是L1/L2 cache的TLB miss统计项。在内存较大的系统里,如256GB内存全量的页表项有256GB/4KB=67108864条,每个条目占用16字节的话,需要1GB,显然是CPU cache无法全量缓存的。这时候如果访问的内存范围较广很容易出现TLB miss导致访问延时的增加。

Hugepages

为了降低TLB miss的概率,Linux引入了Hugepages机制,可以设定Page大小为2MB或者1GB。2MB的Hugepages机制下,同样256GB内存需要的页表项降低为256GB/2MB=131072,仅需要2MB。因此Hugepages的页表可以全量缓存在CPU cache中。
 通过sysctl -w vm.nr_hugepages=1024可以设置hugepages的个数为1024,总大小为4GB。需要注意是,设置huagepages会从系统申请连续2MB的内存块并进行保留(不能用于正常内存申请),如果系统运行一段时间导致内存碎片较多时,再申请hugepages会失败。
 如下所示为hugepages的设置和mount方法,mount之后应用程序需要在mount路径下通过mmap进行文件映射来使用这些hugepages。

sysctl -w vm.nr_hugepages=1024
mkdir -p /mnt/hugepages
mount -t hugetlbfs hugetlbfs /mnt/hugepages

Buddy System

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/12730.html