我们都知道建索引是需要谨慎的,当只有利大于弊的时候才适合建,同时也知道建索引是需要维护成本的,这个维护也就在于DML操作,下面具体看看到底DML对索引都有哪些内幕。。。。
一:delete操作现在大家都已经知道索引是以B树的形式存在,既然是B树就要给大家展示一下叶子节点和分支结点,先准备点测试数据,如下代码:
CREATE TABLE Person(ID INT,NAME CHAR(200))
CREATE INDEX idx_Name ON Person(NAME)
DECLARE @ch AS INT=65
WHILE @ch<=122
BEGIN
INSERT INTO dbo.Person(ID,NAME)
VALUES
(
@ch,
REPLICATE(CHAR(@ch),200)
)
SET @ch=@ch+1
END
1. 叶子结点的变化从上面的图中大概可以看到,当我插入完毕后,4个索引数据页就出来了,其中PID=200的为分支数据页,其他三个为叶子节点数据页,编号分别为175,201,202,然后我就挑选第二个叶子节点数据页201号,看看里面的数据是啥样的。
从数据页中可以看到在201号数据页中有18个槽位,当然除了通过槽位看记录条数之外,你还可以通过Pageheader中的m_slotCnt来观察记 录个数,如下图:
接下来,大家再看看slot0槽位的内容是啥样,如下代码:
0000000000000000: 16484848 48484848 48484848 48484848 †.HHHHHHHHHHHHHHH
0000000000000010: 48484848 48484848 48484848 48484848 †HHHHHHHHHHHHHHHH
0000000000000020: 48484848 48484848 48484848 48484848 †HHHHHHHHHHHHHHHH
0000000000000030: 48484848 48484848 48484848 48484848 †HHHHHHHHHHHHHHHH
0000000000000040: 48484848 48484848 48484848 48484848 †HHHHHHHHHHHHHHHH
0000000000000050: 48484848 48484848 48484848 48484848 †HHHHHHHHHHHHHHHH
0000000000000060: 48484848 48484848 48484848 48484848 †HHHHHHHHHHHHHHHH
0000000000000070: 48484848 48484848 48484848 48484848 †HHHHHHHHHHHHHHHH
0000000000000080: 48484848 48484848 48484848 48484848 †HHHHHHHHHHHHHHHH
0000000000000090: 48484848 48484848 48484848 48484848 †HHHHHHHHHHHHHHHH
00000000000000A0: 48484848 48484848 48484848 48484848 †HHHHHHHHHHHHHHHH
00000000000000B0: 48484848 48484848 48484848 48484848 †HHHHHHHHHHHHHHHH
00000000000000C0: 48484848 48484848 48970000 00010007 †HHHHHHHHH.......
00000000000000D0: 00020000 ††††††††††††††††††††††††††††....
看到内容之后,我们把这条记录删掉,然后快速的观察数据页的变化,很有意思的。。。。如下图:
仔细观察上面的图,你会看到m_slotCnt=18。。。。你也看到m_ghostRecCnt=1,看这个名字你就知道是“幻象”的意思。。。正因为被标记为幻象,是因为sqlserver的后台进程会在某个时候把数据正真的删除掉,比如你过个几秒之后再查看就能看到真的被清除了。
2. 分支节点的变化说完叶子节点,然后我们继续看看分支节点,通过前面的博文,你应该知道在分支节点中是依次保存着排序后的每个叶子节点中的最小值,刚好 我删除了第二个叶子节点的第一个值,那这个值也正好保存在分支节点中,下面一个问题来了,我刚才删除了ID=72的记录,那这条记录还会在分支节点中保存吗???不用太兴奋,用数据说话,继续查看200号数据页。
可以看到分支节点是不会删除这条记录的。
二:insert操作索引都是按照索引列升序的,当我insert的时候是不是需要给我插入到排序的指定位置呢???比如说我刚才删除的HHH。。。数据,这次我再insert的时候,是不是需要给我插入到第二个数据页的slot0位置呢???下面继续用数据说话。
INSERT INTO dbo.Person VALUES(72,REPLICATE(CHAR(72),200))
DBCC PAGE(Ctrip,1,201,1)
Slot 0, Offset 0x101c, Length 212, DumpStyle BYTE
Record Type = INDEX_RECORD Record Attributes = NULL_BITMAP Record Size = 212
Memory Dump @0x000000000FE5B01C
0000000000000000: 16686868 68686868 68686868 68686868 †.hhhhhhhhhhhhhhh
0000000000000010: 68686868 68686868 68686868 68686868 †hhhhhhhhhhhhhhhh
0000000000000020: 68686868 68686868 68686868 68686868 †hhhhhhhhhhhhhhhh
0000000000000030: 68686868 68686868 68686868 68686868 †hhhhhhhhhhhhhhhh
0000000000000040: 68686868 68686868 68686868 68686868 †hhhhhhhhhhhhhhhh
0000000000000050: 68686868 68686868 68686868 68686868 †hhhhhhhhhhhhhhhh
0000000000000060: 68686868 68686868 68686868 68686868 †hhhhhhhhhhhhhhhh
0000000000000070: 68686868 68686868 68686868 68686868 †hhhhhhhhhhhhhhhh
0000000000000080: 68686868 68686868 68686868 68686868 †hhhhhhhhhhhhhhhh
0000000000000090: 68686868 68686868 68686868 68686868 †hhhhhhhhhhhhhhhh
00000000000000A0: 68686868 68686868 68686868 68686868 †hhhhhhhhhhhhhhhh
00000000000000B0: 68686868 68686868 68686868 68686868 †hhhhhhhhhhhhhhhh
00000000000000C0: 68686868 68686868 68c10000 00010002 †hhhhhhhhh.......
00000000000000D0: 00020000 ††††††††††††††††††††††††††††....
Slot 1, Offset 0x1f04, Length 212, DumpStyle BYTE
Record Type = INDEX_RECORD Record Attributes = NULL_BITMAP Record Size = 212
Memory Dump @0x000000000FE5BF04
0000000000000000: 16484848 48484848 48484848 48484848 †.HHHHHHHHHHHHHHH
0000000000000010: 48484848 48484848 48484848 48484848 †HHHHHHHHHHHHHHHH
0000000000000020: 48484848 48484848 48484848 48484848 †HHHHHHHHHHHHHHHH
0000000000000030: 48484848 48484848 48484848 48484848 †HHHHHHHHHHHHHHHH
0000000000000040: 48484848 48484848 48484848 48484848 †HHHHHHHHHHHHHHHH
0000000000000050: 48484848 48484848 48484848 48484848 †HHHHHHHHHHHHHHHH
0000000000000060: 48484848 48484848 48484848 48484848 †HHHHHHHHHHHHHHHH
0000000000000070: 48484848 48484848 48484848 48484848 †HHHHHHHHHHHHHHHH
0000000000000080: 48484848 48484848 48484848 48484848 †HHHHHHHHHHHHHHHH
0000000000000090: 48484848 48484848 48484848 48484848 †HHHHHHHHHHHHHHHH
00000000000000A0: 48484848 48484848 48484848 48484848 †HHHHHHHHHHHHHHHH
00000000000000B0: 48484848 48484848 48484848 48484848 †HHHHHHHHHHHHHHHH
00000000000000C0: 48484848 48484848 48c10000 00010015 †HHHHHHHHH.......
00000000000000D0: 00020000 ††††††††††††††††††††††††††††....
从上面可以看到,当我再次把删除的”H"插入到数据页的时候,发现“H”在201号数据页的slot1位置了,有人就奇怪了,,,为什么不在slot0 的???
仔细想想确实是这么一个道理,那就是sql是不区别大小写的,“H”和“h”对sqlserver来说都是一样,这里还有一个问题就是数据页分裂,比如说当你insert的数据页已满,那这时候该怎么办呢?sqlserver的手段就是数据页分裂,将满页的一半数据导出到新分配的数据页,同样我也可以做个例子。
CREATE TABLE Person(ID INT,NAME CHAR(5) DEFAULT 'xxxxx')
CREATE INDEX idx_Name ON Person(NAME)
DECLARE @i as int=1
WHILE @i<801
BEGIN
INSERT INTO dbo.Person(ID) VALUES(@i)
SET @i=@i+1
END
接下来,我导出126号数据页的记录,可以看到它的范围是1-449,如下图:
下面我要做的事情就是插入一个ID在1-449范围的一条记录,这样的话就会造成数据页分裂了,对不对。
可以看到,现在多了一个192号数据页,是不是很有意思,哈哈~~ 然后我就非常好奇的再次导出126,192号数据页,看看数据是不是只剩 一半啦~~~
三:update操作如果你看懂了上面的insert和delete,那么update就是这两个操作的组合,也没什么好说的。