一致性hash与分库分表

mac2025-07-16 40

分库分表的原则：

1、当数据量较大时，需要分库分表。通常为保证某个用户的数据在同一个库同一个表中，都是按照customerId进行分库分表的。

2、有时每天产生大量数据，这些数据只是为了对账，也可以按月分库，按天分表。比如分为12个库，366张表(考虑闰年)，但数据每天用完后，可以把这些数据再迁移到历史表中，或者类似hdfs这样的表中。

3、分库分表后考虑数据库的扩容问题，同时还要保证在业务系统不停机的时候继续正常的读写数据，需要保证

3.1 如何保证业务系统不停机？

3.2 如何保证扩容时候尽量少的迁移数据？

5、分库分表的流水号

一般情况下，我们使用customerId作为分库分表键，但有时我们也会产生一个业务ID，并把该业务ID暴露出去，供其他业务系统来查询。这就要求暴露出去的业务ID也是一个分库分表键，这里只需要将分库分表的信息记录在该ID中即可。比如ID为:01110001002817070500000001036815 这个ID一共32位，由以下几个含义组成 01:Version 11:区域信息 0001:代表这是某个类型的数据 0028:代表数据位于第28张表, 170705:数据产生与17年7月5号 00000001036815:Sequence，全局唯一的流水号我们可以看到，0028 这个字段就含有分库分表信息。通过算法可以推导出位于第0000库的第0028表。

4、分库分表的算法，通过一致性hash，扩容数据只需要迁移一半的数据

比如我们有32个库，每库32张表，则

0库：存在下标为0,1,2......31的表 1库：存在下标为32,33,34......63的表 ....... 31库:存在下标为992,993,994,1023的表对于这样的分库分表，假定按照customerId来分库分表，请看分库分表的算法

//取得customerId的hashCode int customerIdHashCode = Math.abs(customerId.hashCode()); //使用一致性Hash算法取得customerId应该位于的数据库 int dbIndex = (customerIdHashCode % 4096) / (4096 / 32); //假定每库为32张表 int tableCountPerDb = 32; //取得customerId位于的数据库的启始表索引 int tableStartIndex = dbIndex * tableCountPerDb; //用customerId % 每库表的数量，得到customerId的步长 int tableStep = customerIdHashCode % tableCountPerDb; //表的起始索引+步长就是customerId应该位于的数据表 int tableIndex = tableStartIndex + tableStep; return tableIndex;

最新回复(0)