分布式ID解决方案
# 分布式ID解决方案
为什么需要分布式 ID(分布式集群环境下的全局唯⼀ ID)
# 1. UUID(可以用)
UUID 是指 Universally Unique Identififier,翻译为中文是通⽤唯⼀识别码
产生重复 UUID 并造成错误的情况⾮常低,是故⼤可不必考虑此问题。
Java 中得到⼀个 UUID,可以使⽤ java.util 包提供的方法
java.util.UUID.randomUUID()
# 2. 独立数据库的自增 ID
比如 A 表分表为 A1 表和 A2 表,那么肯定不能让 A1 表和 A2 表的 ID 自增,那么 ID 怎么获取呢?我们可以单独的创建⼀个 Mysql 数据库,在这个数据库中创建⼀张表,这张表的 ID 设置为自增,其他地方需要全局唯⼀ ID 的时候,就模拟向这个 Mysql 数据库的这张表中模拟插入⼀条记录,此时 ID 会自增,然后我们可以通过 Mysql 的 select last_insert_id() 获取到刚刚这张表中自增生成的 ID.
比如,我们创建了⼀个数据库实例 global_id_generator,在其中创建了⼀个数据表,表结构如下:
-- ----------------------------
-- Table structure for DISTRIBUTE_ID
-- ----------------------------
DROP TABLE IF EXISTS `DISTRIBUTE_ID`;
CREATE TABLE `DISTRIBUTE_ID` (
`id` bigint(32) NOT NULL AUTO_INCREMENT COMMENT '主键',
`createtime` datetime DEFAULT NULL,
PRIMARY KEY (`id`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8;
2
3
4
5
6
7
8
9
当分布式集群环境中哪个应⽤需要获取⼀个全局唯⼀的分布式 ID 的时候,就可以使⽤代码连接这个数据库实例,执行如下 sql 语句即可。
insert into DISTRIBUTE_ID(createtime) values(NOW());
select LAST_INSERT_ID();
2
注意:
1)这⾥的 createtime 字段⽆实际意义,是为了随便插入⼀条数据以⾄于能够自增 id。
2)使⽤独立的 Mysql 实例生成分布式 id,虽然可行,但是性能和可靠性都不够好,因为你需要代码连接到数据库才能获取到 id,性能⽆法保障,另外 mysql 数据库实例挂掉了,那么就⽆法获取分布式 id 了。
3)有⼀些开发者又针对上述的情况将⽤于生成分布式 id 的 mysql 数据库设计成了⼀个集群架构,那么其实这种方式现在基本不⽤,因为过于麻烦了。
# 3. 借助 Redis 的 Incr 命令获取全局唯⼀ ID(推荐)
Redis Incr 命令将 key 中储存的数字值增⼀。如果 key 不存在,那么 key 的值会先被初始化为 0
,然后再执行 INCR 操作。
<key,value>
<id,>
.incr(id) 1 2 3 4
Redis 安装(示意,我们这⾥安装单节点使⽤⼀下,具体 Redis 自身的内容在后续分布式缓存课程中详细讲解)
官网下载 redis-3.2.10.tar.gz
上传到 linux 服务器解压 tar -zxvf redis-3.2.10.tar.gz
cd 解压文件⽬录,对解压的 redis 进行编译
make
然后 cd 进入 src ⽬录,执行 make install
修改解压⽬录中的配置文件 redis.conf,关掉保护模式
在 src ⽬录下执行 ./redis-server ../redis.conf 启动 redis 服务
Java 代码中使⽤ Jedis 客户端调⽤ Reids 的 incr 命令获得⼀个全局的 id
引入 jedis 客户端 jar
<dependency> <groupId>redis.clients</groupId> <artifactId>jedis</artifactId> <version>2.9.0</version> </dependency>
1
2
3
4
5Java 代码(此处我们就是连接单节点,也不使⽤连接池)
Jedis jedis = new Jedis("127.0.0.1",6379); try { long id = jedis.incr("id"); System.out.println("从redis中获取的分布式id为:" + id); } finally { if (null != jedis) { jedis.close(); } }
1
2
3
4
5
6
7
8
9
# 4. SnowFlake 雪花算法(可以用,推荐)
雪花算法是 Twitter 推出的⼀个⽤于生成分布式 ID 的策略。
雪花算法是⼀个算法,基于这个算法可以生成 ID,生成的 ID 是⼀个 long 型,那么在 Java 中⼀个 long 型是 8 个字节,算下来是 64bit,如下是使⽤雪花算法生成的⼀个 ID 的⼆进制形式示意:
# 雪花算法 id 组成结构说明:
1)符号位:固定为 0,二进制表示最高位是符号位,0 代表证书,1 代表负数。
2)时间戳:41 个二进制数用来记录时间戳,表示某一个毫秒(毫秒级)
3)机器 id:代表当前算法运行机器的 id
4)序列号:12 位,用来记录某个机器同一个毫秒内产生的不同的序列号,代表同一个机器同一个毫秒可以产生的 id 序号
另外,⼀些互联网公司也基于上述的方案封装了⼀些分布式 ID 生成器,比如滴滴的 tinyid(基于数据库实现)、百度的 uidgenerator(基于 SnowFlake)和美团的 leaf(基于数据库和 SnowFlake)等,他们在。
# SnowFlake 算法的优点:
(1)高性能高可用:生成时不依赖于数据库,完全在内存中生成(由于完基于位运算,所以性能比随机数运算要高)。
(2)容量大:每秒中能生成数百万的自增 ID。
(3)ID 自增:存入数据库中,索引效率高。
# SnowFlake 算法的缺点:
依赖与系统时间的一致性,如果系统时间被回调,或者改变,可能会造成 id 冲突或者重复。
实际中我们的机房并没有那么多,我们可以改进改算法,将 10bit 的机器 id 优化,成业务表或者和我们系统相关的业务。
# 参考
- 01
- idea 热部署插件 JRebel 安装及破解,不生效问题解决04-10
- 02
- spark中代码的执行位置(Driver or Executer)12-12
- 03
- 大数据技术之 SparkStreaming12-12