分布式ID解决方案

# 分布式ID解决方案

为什么需要分布式 ID(分布式集群环境下的全局唯⼀ ID)

# 1. UUID(可以用)

UUID 是指 Universally Unique Identififier，翻译为中文是通⽤唯⼀识别码

产生重复 UUID 并造成错误的情况⾮常低，是故⼤可不必考虑此问题。

Java 中得到⼀个 UUID，可以使⽤ java.util 包提供的方法

java.util.UUID.randomUUID()

# 2. 独立数据库的自增 ID

比如 A 表分表为 A1 表和 A2 表，那么肯定不能让 A1 表和 A2 表的 ID 自增，那么 ID 怎么获取呢？我们可以单独的创建⼀个 Mysql 数据库，在这个数据库中创建⼀张表，这张表的 ID 设置为自增，其他地方需要全局唯⼀ ID 的时候，就模拟向这个 Mysql 数据库的这张表中模拟插入⼀条记录，此时 ID 会自增，然后我们可以通过 Mysql 的 select last_insert_id() 获取到刚刚这张表中自增生成的 ID.

比如，我们创建了⼀个数据库实例 global_id_generator，在其中创建了⼀个数据表，表结构如下：

-- ----------------------------
-- Table structure for DISTRIBUTE_ID
-- ----------------------------
DROP TABLE IF EXISTS `DISTRIBUTE_ID`;
CREATE TABLE `DISTRIBUTE_ID` (
 `id` bigint(32) NOT NULL AUTO_INCREMENT COMMENT '主键',
 `createtime` datetime DEFAULT NULL,
 PRIMARY KEY (`id`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8;

1
2
3
4
5
6
7
8
9

当分布式集群环境中哪个应⽤需要获取⼀个全局唯⼀的分布式 ID 的时候，就可以使⽤代码连接这个数据库实例，执行如下 sql 语句即可。

insert into DISTRIBUTE_ID(createtime) values(NOW());
select LAST_INSERT_ID()；

1
2

注意：

1）这⾥的 createtime 字段⽆实际意义，是为了随便插入⼀条数据以⾄于能够自增 id。

2）使⽤独立的 Mysql 实例生成分布式 id，虽然可行，但是性能和可靠性都不够好，因为你需要代码连接到数据库才能获取到 id，性能⽆法保障，另外 mysql 数据库实例挂掉了，那么就⽆法获取分布式 id 了。

3）有⼀些开发者又针对上述的情况将⽤于生成分布式 id 的 mysql 数据库设计成了⼀个集群架构，那么其实这种方式现在基本不⽤，因为过于麻烦了。

# 3. 借助 Redis 的 Incr 命令获取全局唯⼀ ID（推荐）

Redis Incr 命令将 key 中储存的数字值增⼀。如果 key 不存在，那么 key 的值会先被初始化为 0

，然后再执行 INCR 操作。

<key,value>

<id,>

.incr(id) 1 2 3 4

Redis 安装（示意，我们这⾥安装单节点使⽤⼀下，具体 Redis 自身的内容在后续分布式缓存课程中详细讲解）
- 官网下载 redis-3.2.10.tar.gz
- 上传到 linux 服务器解压 tar -zxvf redis-3.2.10.tar.gz
- cd 解压文件⽬录，对解压的 redis 进行编译
- make
- 然后 cd 进入 src ⽬录，执行 make install
- 修改解压⽬录中的配置文件 redis.conf，关掉保护模式
  
  在 src ⽬录下执行 ./redis-server ../redis.conf 启动 redis 服务

Java 代码中使⽤ Jedis 客户端调⽤ Reids 的 incr 命令获得⼀个全局的 id

引入 jedis 客户端 jar

<dependency>
	<groupId>redis.clients</groupId>
    <artifactId>jedis</artifactId>
    <version>2.9.0</version>
</dependency>

1
2
3
4
5

Java 代码（此处我们就是连接单节点，也不使⽤连接池）

Jedis jedis = new Jedis("127.0.0.1",6379);
try {
	long id = jedis.incr("id");
	System.out.println("从redis中获取的分布式id为：" + id);
} finally {
if (null != jedis) {
	jedis.close();
	}
}

1
2
3
4
5
6
7
8
9

# 4. SnowFlake 雪花算法（可以用，推荐）

雪花算法是 Twitter 推出的⼀个⽤于生成分布式 ID 的策略。

雪花算法是⼀个算法，基于这个算法可以生成 ID，生成的 ID 是⼀个 long 型，那么在 Java 中⼀个 long 型是 8 个字节，算下来是 64bit，如下是使⽤雪花算法生成的⼀个 ID 的⼆进制形式示意：

# 雪花算法 id 组成结构说明：

1）符号位：固定为 0，二进制表示最高位是符号位，0 代表证书，1 代表负数。

2）时间戳：41 个二进制数用来记录时间戳，表示某一个毫秒（毫秒级）

3）机器 id：代表当前算法运行机器的 id

4）序列号：12 位，用来记录某个机器同一个毫秒内产生的不同的序列号，代表同一个机器同一个毫秒可以产生的 id 序号

另外，⼀些互联网公司也基于上述的方案封装了⼀些分布式 ID 生成器，比如滴滴的 tinyid（基于数据库实现）、百度的 uidgenerator（基于 SnowFlake）和美团的 leaf（基于数据库和 SnowFlake）等，他们在。

# SnowFlake 算法的优点：

（1）高性能高可用：生成时不依赖于数据库，完全在内存中生成（由于完基于位运算，所以性能比随机数运算要高）。

（2）容量大：每秒中能生成数百万的自增 ID。

（3）ID 自增：存入数据库中，索引效率高。

# SnowFlake 算法的缺点：

依赖与系统时间的一致性，如果系统时间被回调，或者改变，可能会造成 id 冲突或者重复。

实际中我们的机房并没有那么多，我们可以改进改算法，将 10bit 的机器 id 优化，成业务表或者和我们系统相关的业务。

# 参考

分布式主键解决方案----Twitter 雪花算法的原理（Java 版） (opens new window)

编辑

上次更新: 2024/04/19, 08:52:45

← 集群时钟同步问题分布式理论之数据一致性→