比較Swift与HDFS话Ceph本质(by quqi99)

作者:张华  发表于:2014-06-21
版权声明:能够随意转载,转载时请务必以超链接形式标明文章原始出处和作者信息及本版权声明
( )

作者将又一次研究ceph, 先温习一下之前作者大半年前发表在openstack中国社区的一篇理论文章(),复制例如以下:

Ceph是一个支持大量小文件和随机读写的分布式文件系统,在维护 POSIX 兼容性的同一时候添加了复制和容错功能。眼下Ceph已经被加到了Linux内核之中,尽管可能还不适用于生产环境。它也想实现统一存储的目标,即:

对象系统,相似Swift, 这里是RADOS, Reliable Autonomic Distributed Object Store, 可靠的自主分布式对象存储。在每台host上都要执行OSD(Object Storage Daemon)进程,当然,假设已经用RAID, LVMbtrfxfs(最好别用ext4)将每台host上的硬盘都做成一个池了的话,执行一个OSD就能够了。OSD会默认创建三个池:data, metadaRBD 。同一时候,在每台host上还要执行MON (Monitor)进程。

文件存储,相似Hadoop中的HDFS,但HDFS是流式存储,即一次写多次读。想使用Ceph文件存储的话,那还在每台host上还要执行MDS(Meta-Data Server)进程MDS是在对象系统的基础之上为Cephclient又提供的一层POSIX文件系统抽象实现。

块存储, 相似Cinder

    这样说来,至少有下列几种方式能够訪问Ceph中的对象:

RADOS方式,RADOSCeph的基础,即使对于Ceph文件存储,底层也是使用RADOSRADOS本来提供一个librados库来訪问对象,这个库支持php, java, python, c/c++还通过RADOS Gateway来提供和SwiftAmazon-S3兼容的REST接口

RBD(rados block device)QEMU-RBD,前面说了,Ceph已经加到内核了,所以能够使用内核的RBD驱动来訪问对象,它也和QEMU-RBD兼容。

CephFS, 上述MDS提供的POSIX兼容的文件系统。在生产系统中,建议用以上三种方式,不建议这样的。

   一个数据块详细存放在哪些host上须要有元数据来描写叙述,HDFS是在一台机器上集中存储元数据的(HA能够通过配置主备实现),Swift则全然是分布式的,一个数据块详细存放在哪些host(在Ceph中称OSD, OSD是在host上维护数据块的一个进程)上由一致性哈希算法决定,元数据使用rsync命令同步分布在每个host上,所以须要分级来减小元数据的大小,所以也就有了Accounts, Containers, Objects这三级RING相应在RADOS中,有两级映射,先经过哈希把key映射到PG (Placement Group),再通过一致性哈希函数CRUSHPGID映射到实际存储数据的host (OSD)Swift使用的一致性哈希算法使用flathost列表,可是CRUSH这样的一致性哈希算法使用的host列表具有层次结构(shelves, racks, rows),而且能同意用户通过指定policies把复制存放在不同的机架。剩下的事和Swift相似,CRUSH会生成在RING上产生副本信息,第一个副本是主,其他是从,主负责接收来自client的写,及协调多个client的写,主再将数据写给从,待主返回结果后,主才告诉用户写成功,所以副本是强一致性的,这点和AWS dynamo这些终于一致性的做法有些差别。当新增机器或发生宕机时,和swift也相似,CRUSH一致性哈希算法也会保证数据的抖动性最小(即转移的数据块最少)。

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/zwdzpz.html