之前介绍的月报中,详细介绍了InnoDB Buffer Pool的实现细节,Buffer Pool主要就是用来存储数据页的,是数据页在内存中的动态存储方式,而本文介绍一下数据页在磁盘上的静态存储方式以及相关的操作。由于数据页的结构涉及InnoDB非常底层的代码,因此各个版本的MySQL都可以参考。相关代码主要集中在page目录下。
基础知识数据库采用数据页的形式组织数据。MySQL默认的非压缩数据页为16KB。在ibd中间中,0-16KB偏移量即为0号数据页,16KB-32KB的为1号数据页,依次类推。数据页的头尾除了一些元信息外,还有Checksum校验值,这些校验值在写入磁盘前计算得到,当从磁盘中读取时,重新计算校验值并与数据页中存储的对比,如果发现不同,则会导致MySQL crash。遇到这种情况,往往需要从备份集中恢复数据,如果备份不可用,只能使用innodb_force_recovery强行启动,然后尽可能多的导出数据。这篇月报中介绍了一种从物理文件中恢复数据的方法,在走投无路的情况下可以使用。
数据页格式严格来讲,InnoDB的数据页有很多种,比如,索引页,Undo页,Inode页,系统页,BloB页等,一共有10多种。本文主要介绍最常见的索引页。下文中,没有特殊说明,数据页都指索引页。
数据页包括七个部分,数据页文件头,数据页头,最大最小记录,用户记录,空闲空间,数据目录,数据页尾部。
简单的来说,数据页分两部分,一部分存储数据记录,按照记录的大小通过记录的指针连接起来。另外一部分存储数据页的目录,用来加速查找。注意这个目录是稀疏的,即不是所有的记录在目录都有索引,平均是每隔六个记录才有一个目录。数据记录部分是从低地址向高地址空间增长的,而数据目录部分则相反。这种数据结构可以保证比较高的插入删除和查找效率。具体方法详见核心函数小节。
这篇月报的最后有一张图,详细展示了数据页的结构,读者可以先自行了解一下,接下来,本文解释一下各个部分的内容。
这个部分主要用来存储表空间相关的信息。主要在fil0fil.h这个文件中。
FIL_PAGE_SPACE_OR_CHKSUM: 这个占用四字节,主要用来存储数据页的checksum。注意,计算校验值的时候,并不是整个数据页都计算,有几个地方是不计算进去的(buf_calc_page_crc32和buf_calc_page_new_checksum),例如头尾存checksum的地方,存space_id的地方(历史原因导致)。Checksum的计算方式详见数据页Corruption这一小节。
FIL_PAGE_OFFSET: 这个就是对应数据页的page number,每个表空间从0开始,即这个值乘以数据页的大小就可以得到数据页在文件中的起始偏移量。fio_io函数读取以及写入数据页的时候依赖这个规则。
FIL_PAGE_PREV,FIL_PAGE_NEXT: 这两个是指针,分别指向前一个数据页和后一个数据页。注意,这里的前后是指按照用户记录排序的先后顺序,也是逻辑顺序。因为在InnoDB数据页不断的分配和释放中,会导致逻辑上连续的数据页在物理上不连续。所以需要指针链接。前后两个指针共同构建了一个双向链表。
FIL_PAGE_LSN: 当前数据页最新被修改的lsn。这个字段非常重要,InnoDB redolog幂等的特性就依赖此字段。在奔溃恢复应用日志阶段,如果发现redolog的lsn小于等于这个值,就不需要再次应用redolog了。
FIL_PAGE_TYPE: 当前页面是哪种类型的数据页。包括,索引页,Undo页,Inode页,系统页,BloB页等十几种。
FIL_PAGE_FILE_FLUSH_LSN: ibdata文件第一个数据页才有意义,记录ibdata成功刷到磁盘的lsn。
FIL_PAGE_ARCH_LOG_NO_OR_SPACE_ID: 现在的版本就是用来存spaceid的。
从存储的信息来看,这部分才是存的数据页相关的元信息。定义在page0page.h中。
PAGE_N_DIR_SLOTS: 这个表示数据页中数据目录的个数。一个新建的空数据页,就有2个目录,分别指向最大记录和最小记录。在一个非空的数据页中,第一个目录永远指向最小记录,最后一个目录永远指向最大记录。当增加目录的时候,会递增这个值。
PAGE_HEAP_TOP: 这个指向数据页中的空闲空间的起始地址。大于这个地址的且小于数据目录的空间都是未分配的,可以被后续使用。但是由于空闲记录链表(PAGE_FREE)的存在,小于这个地址的也可能被重用。
PAGE_N_HEAP: 目前已经被使用空间中的记录数量,包括正常的记录和已经被删除(放入PAGE_FREE中)的记录。从代码逻辑看,这个值是不会减少的,每次都空闲空间记录的时候就会增加。在创建新的空页时候,默认被置为2,即最大和最小记录。此外,最高位被用来标记这个数据页是否存了新格式的记录(compact和redundant)。
PAGE_FREE: 删除记录的链表,记录被删除,会放到这个链表头上,如果这个页上有记录要插入,可以先从这里分配空间,如果空间不够,才从空闲地址(PAGE_HEAP_TOP)分配。注意放到这个链表里面的,都是被purge线程彻底删除的记录,delete-marked的记录不在这里。
PAGE_GARBAGE: 所有已经被删除的记录占用空间的大小。主要是为了方便计算空闲的空间。
PAGE_LAST_INSERT: 指向最近一个被插入的记录的。主要用来加速后续插入操作。
PAGE_DIRECTION: 最后一个记录插入的方向,目前就两个方向,从左边插入和从右边插入。也是用来加速后续插入操作。
PAGE_N_DIRECTION: 同一个方法插入的记录数。主要用来加速后续插入操作。
PAGE_N_RECS: 当前数据页中用户的记录,不包括最大和最小记录。与PAGE_N_HEAP不同,如果记录被标记为delete-marked,这个值就会递减。
PAGE_MAX_TRX_ID: 修改此数据页的当前最大事务id。
PAGE_LEVEL: 这个页是否是B树中的叶子节点。如果是0,就是叶子节点。
PAGE_INDEX_ID: 索引页的索引id。
PAGE_BTR_SEG_LEAF,PAGE_BTR_SEG_TOP: 分别是叶子节点和非叶子节点的段头页地址。