Mysql索引数据结构

2023-11-12 来源：哗拓教育

Mysql索引数据结构(来源)

索引常见数据结构：

顺序查找: 最基本的查询算法-复杂度O（n），大数据量此算法效率糟糕。
二叉树查找（binary tree search）: O(log2n)，数据本身的组织结构不可能完全满足各种数据结构。
hash索引无法满足范围查找。哈希索引基于哈希表实现，只有精确匹配索引所有列的查询才有效。
二叉树、红黑树 [复杂度O(h)]导致树高度非常高(平衡二叉树一个节点只能有左子树和右子树),逻辑上很近的节点（父子）物理上可能很远，无法利用局部性，IO次数多查找慢,效率低。todo 逻辑上相邻节点没法直接通过顺序指针关联，可能需要迭代回到上层节点重复向下遍历找到对应节点，效率低
B-Tree
B-TREE 每个节点都是一个二元数组: [key, data]，所有节点都可以存储数据。key为索引key,data为除key之外的数据。
检索原理：首先从根节点进行二分查找，如果找到则返回对应节点的data，否则对相应区间的指针指向的节点递归进行查找，直到找到节点或未找到节点返回null指针。
缺点：1.插入删除新的数据记录会破坏B-Tree的性质，因此在插入删除时，需要对树进行一个分裂、合并、转移等操作以保持B-Tree性质。造成IO操作频繁。2.区间查找可能需要返回上层节点重复遍历，IO操作繁琐。
B+Tree: B-Tree的变种
与B-Tree相比，B+Tree有以下不同点：非叶子节点不存储data，只存储索引key；只有叶子节点才存储data
Mysql中B+Tree：在经典B+Tree的基础上进行了优化，增加了顺序访问指针。在B+Tree的每个叶子节点增加一个指向相邻叶子节点的指针，就形成了带有顺序访问指针的B+Tree。这样就提高了区间访问性能

为什么Mysql选择B+TREE索引? B+TREE索引有什么好处??索引本身也很大，不可能全部存储在内存中，因此索引往往以索引文件的形式存储的磁盘上。这样的话，索引查找过程中就要产生磁盘I/O消耗，相对于内存存取，I/O存取的消耗要高几个数量级，所以索引的结构组织要尽量减少查找过程中磁盘I/O的存取次数，提升索引效率。

局部性原理与磁盘预读:由于存储介质的特性，磁盘本身存取就比主存慢很多，再加上机械运动耗费，磁盘的存取速度往往是主存的几百分分之一，因此为了提高效率，要尽量减少磁盘I/O。为了达到这个目的，磁盘往往不是严格按需读取，而是每次都会预读，即使只需要一个字节，磁盘也会从这个位置开始，顺序向后读取一定长度的数据放入内存。预读可以提高I/O效率。预读的长度一般为页（page:计算机管理存储器的逻辑块-通常为4k）的整倍数. 主存和磁盘以页为单位交换数据。当程序要读取的数据不在主存中时，会触发一个缺页异常，此时系统会向磁盘发出读盘信号，磁盘会找到数据的起始位置并向后连续读取一页或几页载入内存中。

B-/+Tree索引的性能优势：一般使用磁盘I/O次数评价索引优劣。1.结合操作系统存储结构优化处理： mysql巧妙运用操作系统存储结构(一个节点分配到一个存储页中->尽量减少IO次数) & 磁盘预读(缓存预读->加速预读马上要用到的数据).2.B+Tree 单个节点能放多个子节点，相同IO次数，检索出更多信息。3.B+TREE 只在叶子节点存储数据 & 所有叶子结点包含一个链指针 & 其他内层非叶子节点只存储索引数据。只利用索引快速定位数据索引范围，先定位索引再通过索引高效快速定位数据。

Mysql索引数据结构

标签：性能系统二叉树使用区间 io操作严格文件的长度

小编还为您整理了以下内容，可能对您也有帮助：

mysql的索引用的什么数据结构

谈到索引，大家并不陌生。索引本身是一种数据结构，存在的目的主要是为了缩短数据检索的时间，最大程度减少磁盘 IO。
任何有数据的场景几乎都有索引，比如手机通讯录、文件系统（ext4\xfs\ntfs)、数据库系统（MySQL\Oracle）。数据库系统和文件系统一般都采用 B+ 树来存储索引信息，B+ 树兼顾写和读的性能，最极端时检索复杂度为 O(logN)，其中 N 指的是节点数量，logN 表示对磁盘 IO 扫描的总次数。
MySQL 支持的索引结构有四种：B+ 树，R 树，HASH，FULLTEXT。

mysql的索引用的什么数据结构

mysql索引的数据结构,为什么用b+树

1、MySQL支持的索引结构有四种：B+树，R树，HASH，FULLTEXT。B树是一种多叉的AVL树。B-Tree减少了AVL数的高度，增加了每个节点的KEY数量。

2、其余节点用来索引，而B-树是每个索引节点都会有Data域。这就决定了B+树更适合用来存储外部数据，也就是所谓的磁盘数据。

3、mysql的数据结构用的是b+而不是b红黑树等数据结构也可以用来实现索引，但是文件系统及数据库系统普遍采用B-/+Tree作为索引结构，这一节将结合计算机组成原理相关知识讨论B-/+Tree作为索引的理论基础。

如何创建mysql索引以及索引的优缺点

mysql教程：索引的使用以及索引的优缺点
1. 索引（index）是帮助MySQL高效获取数据的数据结构。
它对于高性能非常关键，但人们通常会忘记或误解它。
索引在数据越大的时候越重要。规模小、负载轻的数据库即使没有索引，也能有好的性能，但是当数据增加的时候，性能就会下降很快。
Tip:蠕虫复制,可以快速复制大量的数据
例：insert into emp select * from emp;
2. MySQL中常见的索引
◆普通索引 ◆唯一索引 ◆主键索引 ◆组合索引 ◆全文索引◆外键（只有innodb存储引擎才支持）
2.1普通索引：
这是最基本的索引，它没有任何*。有以下几种创建方式：
有以下几种创建方式：
◆创建索引
CREATE INDEX indexName ON tablename(username(length));
◆修改表结构
ALTER tablename ADD INDEX indexName (username(length))
Tip：length可以小于字段实际长度;如果是BLOB 和 TEXT 类型，必须指定length ,下同
◆创建表的时候直接指定
CREATE TABLE mytableuuu( ID INT NOT NULL, username VARCHAR(16) NOT NULL, INDEX indexName (username(length)) );
CREATE TABLE mytable(id INT NOT NULL,username VARCHAR(16) NOT NULL);
create index index1 on mytable(id); //创建普通索引
◆删掉索引：
drop index index1 on mytable;
有一个概念，
行定义：在声明字段（列）的时候定义的，比如primary key
表定义：在所有字段（列）声明完之后定义的，比如primary key，index
CREATE TABLE mytable(id INT NOT NULL,username VARCHAR(16) NOT NULL,index index1(username));
3.0唯一索引（unique）
索引列的值必须唯一，但允许有空值。
1）创建索引：Create UNIQUE INDEX indexName ON tableName(tableColumns(length))
2）修改表结构：Alter tableName ADD UNIQUE [indexName] ON (tableColumns(length)
3）创建表的时候直接指定：Create TABLE tableName ( [...], UNIQUE [indexName](tableColumns(length));
4.0主键索引（primary key）

如何创建mysql索引以及索引的优缺点

怎样正确创建MySQL索引的方法详解

索引类似大学图书馆建书目索引，可以提高数据检索的效率，降低数据库的IO成本。MySQL在300万条记录左右性能开始逐渐下降，虽然官方文档说500~800w记录，所以大数据量建立索引是非常有必要的。MySQL提供了Explain，用于显示SQL执行的详细信息，可以进行索引的优化。

什么是索引？

MySQL官方对索引的定义为：索引(Index)是帮助MySQL高效获取数据的数据结构。我们可以简单理解为：快速查找排好序的一种数据结构。Mysql索引主要有两种结构：B+Tree索引和Hash索引。我们平常所说的索引，如果没有特别指明，一般都是指B树结构组织的索引(B+Tree索引)。索引如图所示：

最外层浅蓝色磁盘块1里有数据17、35（深蓝色）和指针P1、P2、P3（）。P1指针表示小于17的磁盘块，P2是在17-35之间，P3指向大于35的磁盘块。真实数据存在于子叶节点也就是最底下的一层3、5、9、10、13??非叶子节点不存储真实的数据，只存储指引搜索方向的数据项，如17、35。

查找过程：例如搜索28数据项，首先加载磁盘块1到内存中，发生一次I/O，用二分查找确定在P2指针。接着发现28在26和30之间，通过P2指针的地址加载磁盘块3到内存，发生第二次I/O。用同样的方式找到磁盘块8，发生第三次I/O。

真实的情况是，上面3层的B+Tree可以表示上百万的数据，上百万的数据只发生了三次I/O而不是上百万次I/O，时间提升是巨大的。

数据表索引可以提高数据的检索效率，也可以降低数据库的IO成本，并且索引还可以降低数据库的排序成本。排序分组操作主要消耗的就是CPU资源和内存，所以能够在排序分组操作中好好的利用索引将会极大地降低CPU资源的消耗。下面我们将简单的分析一下怎样正确创建MySQL数据索引。

怎样判断是否需要创建索引？

1、某些字段需要频繁用作查询条件时需要为它建立索引

这个应该都知道，什么样才是频繁呢？综合分析你执行的所有SQL语句。最好将他们一个个都列出来。然后分析，发现其中有些字段在大部分的SQL语句查询时候都会用到，那么就果断为他建立索引。

2、唯一性太差的字段不适合建立索引

什么是唯一性太差的字段？如状态字段、类型字段。那些只存储固定几个值的字段，例如用户登录状态、消息的status等。这个涉及到了索引扫描的特性。例如：通过索引查找键值为A和B的某些数据，通过A找到某条相符合的数据，这条数据在X页上面，然后继续扫描，又发现符合A的数据出现在了Y页上面，那么存储引擎就会丢弃X页面的数据，然后存储Y页面上的数据，一直到查找完所有对应A的数据，然后查找B字段，发现X页面上面又有对应B字段的数据，那么他就会再次扫描X页面，等于X页面就会被扫描2次甚至多次。以此类推，所以同一个数据页可能会被多次重复的读取，丢弃，在读取，这无疑给存储引擎极大地增加了IO的负担。

3、更新太频繁地字段不适合创建索引

当你为某个字段创建索引时候，如果再次更新这个字段数据时，数据库就会自动更新他的索引，所以当这个字段更新太频繁地时候那么就会不断的更新索引，性能的影响可想而知。大概被检索几十次才会更新一次的字段才比较符合建立索引的规范。而如果一个字段同一个时间段内被更新多次，那么果断不能为他建立索引。

4、不会出现在where条件中的字段不该建立索引

这个其实没什么好说的，不会用作查询条件的字段建立了索引也没用。

总结

索引数据结构都有哪些？分别有什么区别呢？一般都采用什么结构的呢？

全文索引、聚集索引、哈希索引、b+树索引等

B+树的简单定义：B+树是为磁盘或其他存储设备设计的一种平衡查找树。B+树中所有记录都是按键值大小顺序存放在叶子节点上，各叶子节点通过指针进行连接。

哈希索引(Hash indexes)采用哈希表来对键值进行查找，时间复杂度为O(1)。

使用哈希索引时对于键值的等值查询是非常快的，但是其他类型的查询如范围查询、模糊查询、排序等是不能使用哈希索引的。这是哈希索引使用比较少的主要原因。

聚集索引（Clustered Index）又称聚簇索引，其叶子节点存放记录。

每个InnoDB 表有一个特定的索引叫做聚集索引,存储行的数据。

如果你的表定义了主键那么主键就是聚集索引，如果没有定义主键,MySQL 会选择第一个非空唯一索引列作为聚集索引，如果表中也没有唯一索引,InnoDB会生成一个类似RowId的隐藏的聚集索引。

全文索引查找条件使用 MATCH AGAINST。

全文索引(Full-text search indexes)使用倒排索引(inverted index)实现。倒排索引会记录文本中的每个关键字出现在文档中的位置。

显示全文

全部栏目

Mysql索引数据结构