认真的测试过网上的大多数文章和版本,真正能一次性测试通过的文章太少了,需要反复的推敲,反复的查阅资料,才能真正的测试成功,所以,在此背景下,总结了Rsync,加上自己的理解分享出来; 1、 原理篇
Rsync,故名思议,是一个远程数据同步工具,可以镜像整个目录树和文件系统,也可以保持源文件的权限,时间和软硬链接,可以优化数据,文件重复数据的删除,也可以在LAN/WAN之间快速的同步多台主机的数据,这主要得益于Rsync的压缩和Rsync的核心算法,其算法,是本地和远程两台主机之间的文件达到同步并保持一致,并且只传送两个文件的不同部分,而不是整个数据进行传送,所以,速度非常快;
一个Rsync server能够同时备份多个客户端数据,也可以一个客户端备份多个Rsync server的数据;
Rsync 支持搭配scp,ssh和daemon模式,默认端口是873,当第一次连接的时候,会对数据进行完整备份,之后的所有备份,都是进行增量备份,只备份又变化的数据;
Rsync只支持单向备份,不支持双向,如果需要双向同步的,可以使用Unison;如果需要实时同步的,可以结合Rsync+inotify;
Rsync服务以只读方式提供要备份的数据,避免破坏生产环境的数据;
在这里,有必要对Rsync的核心算法,进行讲解:
假定在名为 α 和 β 的两台计算机之间同步相似的文件 A 与 B,其中 α 对文件A拥有访问权,β 对文件 B 拥有访问权。并且假定主机 α 与 β 之间的网络带宽很小。那么 Rsync 算法将通过下面的五个步骤来完成:
β 将文件 B 分割成一组不重叠的固定大小为 S 字节的数据块。最后一块可能会比 S 小。
β 对每一个分割好的数据块执行两种校验:一种是32位的滚动弱校验,另一种是128位的 MD4 强校验。
β 将这些校验结果发给 α。
α 通过搜索文件 A 的所有大小为 S 的数据块(偏移量可以任选,不一定非要是 S 的倍数),来寻找与文件B 的某一块有着相同的弱校验码和强校验码的数据块。这项工作可以借助滚动校验的特性很快完成。
α 发给 β 一串指令来生成文件 A 在 β 上的备份。这里的每一条指令要么是对文件 B 经拥有某一个数据块而不须重传的证明,要么是一个数据块,这个数据块肯定是没有与文件 B 的任何一个数据块匹配上的。
Rsync适用于linux、solaris和bsd,在Windows平台下,有cwRsync。
本文,将以Linux的Rsync和以Window的cwRsync为例讲解。
2、 Rsync服务端 2.1、 安装源码安装
下载rsync服务端程序,
tar zxvf rsync-2.6.9.tar.gz
cd rsync-2.6.9
./configure --prefix=/usr/local/rsync
make
make install
rpm安装
yum install rsync
本文以yum来安装
2.2、 服务器运行模式模式选择
对于负载比较重的,选择独立服务启动
对于负载比较轻的,选择以xinet.d启动,选择此模式,记得要安装xinet.d (yum install xinet.d)
独立运行模式
/usr/bin/rsync --daemon --config=/etc/rsyncd.conf (本例选择此方法)
如果需要系统开机启动,可以把上面命令加入到/etc/rc.local文件中。
2.3、 服务器配置创建配置文件和口令文件
touch /etc/rsyncd.conf 主要配置文件
touch /etc/rsync.pas 口令文件,此文件需要注意客户端和服务器端的格式,后续会讲解
关于配置文件rsyncd.conf讲解
Rsync的配置文件,分为两个部分,全局配置和模块配置,
#全局设置
uid = root 指定模块以root用户来传输文件,如果匿名用户的话,这里填写nobody
gid = root 指定模块以root用户组来传输文件,如果匿名传输的话,这里填写nobody
use chroot = yes 设置为YES,表示在传输文件之前,定位到根目录下,即PATH指定的目录,这样做,主要是出于安全考虑
pid file = /var/run/rsyncd.pid Rsync守护进程把其PID写入的文件
lock file = /var/run/rsync.lock 指定支持max connections的锁文件
log file = /var/log/rsyncd.log 指定Rsync守护进程产生的日志文件,而不是传送给syslog
#模块设置
[Jindie] 模块名称,后续上传下载文件配置时,直接使用此名称名来指定
path = /sda1/JDdatabase 指定此模块的根目录,即文件上传下载都是在此目录下进行
ignore errors 指定在 rsync 服务器上运行 delete 操作时是否忽略 I/O 错误
read only = false 指定是否允许上传,false代表允许上传。
write only = false 指定是否允许下载,false代表允许下载。
list = true 指定当客户请求列出可以使用的模块,该模块是否被列出。如果false,可以创建隐藏的模块。
hosts allow = 192.168.1.65 指定哪些客户端可以访问连接此模块,可以指定单个IP,整个网段,比如此例为单个IP
hosts deny = 0.0.0.0/0 指定哪些客户端不允许连接此模块,此例为0.0.0.0/0网段,代表整个网络
通常表示客户端表示方式,有如下:
单个IP:192.168.1.65
网段IP:192.168.1.0/24
可解析的主机地址:
域内主机:*.wine9.com
所有主机:*
多个列表项,要用空格隔开;