这一周的背景是公司传感数据即将大增,突然意识到需要对所有的数据库表进行索引优化,以及查询语句优化。这一篇博文主要是实现对聚集索引、非聚集索引的一些浅层原理的理解。
1、看懂Set Statistics on中提示的意思。例如:“扫描计数 1,逻辑读取 3282 次,物理读取 44 次,预读 3282 次”,
“预读”指的是查询优化器预估要从硬盘读取数据到缓存的次数;
“物理读取”指的是sql从缓存中读取数据,发现数据不足,需要从硬盘再次读取数据到缓存的次数。注:当SQL语句不变时,如果再次执行,由于缓存中已经存在相关数据,则无需再从硬盘读取,此时“物理读取”次数为0;
“逻辑读取”指的是SQL从缓存中获取数据的次数。
2、数据库数据的存储。最小单位是“页”,而每个“页”大约能保存8000字节的数据,也就是说即便只想取一行数据,也至少要加载一整页。而页的存在结构是平衡二叉树,也就是说当页中数据增加到一定程度,就会迫使页产生分拆,而且不会旧页是满的,新页只有一条数据,事实上是可能拆分成新页5条数据,旧页6条数据,所以叫平衡二叉树。索引数据的保存也是利用这种平衡树模式
3、聚集索引。数据表中的数据会按照聚集索引进行物理排序,因此更换聚集索引会导致所有数据重新排序开销极大。聚集索引的非叶级节点保存的是指针数据,叶级节点保存则是真实数据。设置聚集索引的列对于开发者来说,并非一定是要有唯一性,但是SQL会自动给聚集索引添加后缀,使其变成具有唯一性。
4、非聚集索引(也叫书签)。这个概念是相对于聚集索引的,数据表数据不会根据它进行物理排序。它其实是按指定列的顺序把该列的指针保存, 它所有的节点包含都是指针,没有真实数据。这里分两种情况,一种是表中没有设置聚集索引,这叫堆上的非聚集索引,它的叶级节点保存的是所要查找的数据的行号,也就是RID,最后通过RID得到真实数据。另一种是表上建立了聚集索引,这叫聚集表上的非聚集索引,他的叶级节点上存放的是所要查找的数据的聚集索引叶级节点的键,最后通过聚集索引获取真实数据。
==============================================
本周开发笔记汇总:
开发笔记2019.02.14
一、聚集索引的相关知识
1、主键一定是索引,但是不一定是聚集索引,默认情况如果不设置,就会被创建为聚集索引。
2、除了聚集索引,也可以是唯一非聚集索引,这里面的“唯一”指的是 列中的内容不重复。
3、聚集索引是数据的物理排序位置,所有新插入的数据都会按照这个顺序插入,所以尽量把索引建立在自增ID字段上。如果是Guid字段,排序的效率就会很低,每次插入位置不确定,都会导致大量碎片。
4、如果想要在已经创建主键的表上 新增聚集索引,必须先去掉主键约束,但是去掉主键约束就会导致该字段的主键特性被删除。
删除主键约束命令:alter table [T_EquipVoiceLog_123456] drop constraint PK__T_Equipm__3214EC273CE9E9DD
5、创建非聚集索引主键
CREATE TABLE t2(
id INT NOT NULL
,d DATETIME NOT NULL
,c INT NOT NULL
CONSTRAINT PK_t2 PRIMARY KEY NONCLUSTERED (
id
)
)
6、查看表索引信息: exec sp_helpindex 表名
查看碎片情况:select * from sys.dm_db_index_physical_stats(DB_ID() ,object_id('agent') ,NULL,NULL,NULL)
.avg_fragmentation_in_percent =>当前索引碎片百分比 【如果碎片小于10%~20%,碎片不太可能会成为问题,如果索引碎片在20%~40%,碎片可能成为问题,但是可以通过索引重组来消除索引解决,大规模的碎片(当碎片大于40%),可能要求索引重建。】
.avg_page_space_used_in_percent =>所有页中使用的可用数据存储空间的平均百分比
.page_count =>索引或数据页的总数
7、清空查询缓存,得到真实查询速度
CHECKPOINT;
DBCC DROPCLEANBUFFERS;
DBCC FREEPROCCACHE;
DBCC FREESYSTEMCACHE ('ALL');
SET STATISTICS TIME ON ;
--查询条件
SET STATISTICS TIME OFF;
创建非唯一聚集索引
create clustered index macClustered on [T_EquipVoiceLog_123456](MacStr)
创建非聚集索引
create Nonclustered index vtnonClustered on [T_EquipVoiceLog_123456](voiceTime)
删除普通索引
drop index macClustered on [T_EquipVoiceLog_123456];
开发笔记2019.02.15
1、datediff函数中的字段,无法使用索引,所以在大数据场景应该避免使用。
查询分钟相等的数据的可选方案:
and DATEDIFF(minute,voicetime,'2018-10-13 22:58:16.527')=0
改为
AND voicetime>=CONVERT(VARCHAR(16),'2018-10-13 22:58:16.527',120)
AND voicetime<DATEADD(mi,1,CONVERT(VARCHAR(16),'2018-10-13 22:58:16.527',120))
开发笔记2019.02.16