最近有一个项目,其中某个功能单表数据在可预估的未来达到了亿级,初步估算在90亿左右。与同事详细讨论后,决定采用一致性Hash算法来完成数据库的自动扩容和数据迁移。整个程序细节由我同事完成,我只是将其理解并成文,供有相同问题的同行参考。
参看此文的兄弟,默认各位已经熟悉一致性hash算法了。此文仅仅阐述代码细节,实现语言为Java。
项目背景项目是一个实验室项目
其中有一个表叫做试验表,用于存储车型的试验数据,每个试验大概有6000条数据
总计初期约有2万个车型,每个车型初期包含超过50个试验。后期还会动态增长
试验表中的数据仅需要根据车型试验ID能取出来即可,没有其他更复杂的业务逻辑
方案决策项目正式上线初期,数据量不会直接爆发式增长到90亿,需要时间上的积累(逐步做实验),最终可能达到90亿数据,甚至超过90亿数据。
按照我们实际了解情况,oracle存储数据量达到1千万的时候,性能擅可。而Oracle官方的说法,如单表存储1g有分区(大致500万数据),查询效率非常高。而试验表中仅四个字段,每条数据数据量较小。所以我们最终决定以1000万为节点,水平拆表。当表数据达到1千万时,即增加下一波表。进行数据自动迁移。
按照90亿的总量,1000万数据一个表的划分,最终大致会产生900个左右的表。所以我们最终使用了4个数据库。1个存储其他业务模块的表,3个存储此大数据表。每个数据库大致有300张表。性能上和数量上都可达到我们的要求。
相关表结构试验信息表(EXPERIMENT_MESSAGE),挂接车型和试验的关系。试验数据表(EXPERIMENT_DATA),存储试验数据
试验信息表:
字段 含义ID 主键,采用UUID生成
EXPERIMENT_ID 试验表中的ID
CAR_ID 车型表中的ID
... 其余数十个字段省略
试验数据表:
字段 含义ID 主键,采用UUID生成
EXPERIMENT_MESSAGE_ID 对应的实验信息id
X_VALUE 试验数据X值
Y_VALUE 试验数据Y值
我们采用作一致性hash的key,就是试验数据表中的EXPERIMENT_MESSAGE_ID字段。也就是说,每个试验数据表,不存则以,存则一次性大致有6000条数据。取同理。
一致性Hash算法实现一致性Hash算法的hash部分,采用了著名的ketama算法。在此,我们不多讨论ketama算法的细节,若各位有兴趣,请查阅ketama算法
public long hash(String key) { if (md5 == null) { try { md5 = MessageDigest.getInstance("MD5"); } catch (NoSuchAlgorithmException e) { throw new IllegalStateException("no md5 algorythm found"); } } md5.reset(); md5.update(key.getBytes()); byte[] bKey = md5.digest(); long res = ((long) (bKey[3] & 0xFF) << 24) | ((long) (bKey[2] & 0xFF) << 16) | ((long) (bKey[1] & 0xFF) << 8) | (long) (bKey[0] & 0xFF); return res & 0xffffffffL; }有了Hash的算法,接下来就要构造Hash环了。Hash环采用的SortedMap数据结构实现。
private final SortedMap<Long, T> circle = new TreeMap<Long, T>();其中添加节点和移除节点部分,需要根据hash算法得到节点在环上的位置,具体代码如下:
/** * 添加虚拟节点 * numberOfReplicas为虚拟节点的数量,初始化hash环的时候传入,我们使用300个虚拟节点 * @param node */ public void add(T node) { for (int i = 0; i < numberOfReplicas; i++) { circle.put(hashFunction.hash(node.toString() + i), node); } } /** * 移除节点 * @param node */ public void remove(T node) { for (int i = 0; i < numberOfReplicas; i++) { circle.remove(hashFunction.hash(node.toString() + i)); } }而hash环中得到节点部分比较特殊,根据一致性hash算法的介绍,得到hash环中的节点,实际上是计算出的hash值顺时针找到的第一个节点。
/** * 获得一个最近的顺时针节点 * @param key 为给定键取Hash,取得顺时针方向上最近的一个虚拟节点对应的实际节点 * @return */ public T get(Object key) { if (circle.isEmpty()) { return null; } long hash = hashFunction.hash((String) key); if (!circle.containsKey(hash)) { //返回此映射的部分视图,其键大于等于 hash SortedMap<Long, T> tailMap = circle.tailMap(hash); hash = tailMap.isEmpty() ? circle.firstKey() : tailMap.firstKey(); } return circle.get(hash); } 单表拆分实践上面完成了一致性hash算法的实现,包含了hash算法和hash环的实现。接下来就要处理具体业务中,如何使用这个hash环和算法了。