1, hdfs设计:减少硬件错误的危害,流式数据访问,大规模数据集,简单的一致性模型
2,特点:
1)移动计算的代价比移动数据的代价低
在异构的软硬件平台间的可移植性
2)局限性
不适合低延迟性数据访问。可使用Hbase解决。
不能高效存储小文件。对NameNode压力大。
不支持多用户写入及任意修改文件。只能进行对文件的追加操作。
3,基本概念
1)块:操作系统中的文件块大小为几千字节,而磁盘块的大小为512KB.
HDFS中的块是一个抽象概念,一般系统默认为64M
使用抽象块的好处:
可存储任意大的文件而不会受到网络中任一单个节点磁盘大小的限制
使用抽象块作为操作的单元可以简化存储子系统
块有利于分布式文件系统中复制容错的实现
2)NameNode与DataNode
NameNode
管理文件系统的命名空间
记录每个文件数据块在各个DataNode上的位置和副本信息
协调客户端对文件的访问
记录命名空间内的改动或空间本身属性的改动
使用事务日志记录HDFS元数据的变化。使用映像文件存储文件系统的命名空间,包括文件映射,文件属性等
DataNode
负责所在物理节点的存储管理
一次写入,多次读取(不修改)
文件由数据块组成,典型的块大小是64MB
数据块尽量散布到各个节点
4. HDFS读写数据流程
1) DataNode
客户端要访问HDFS中的一个文件
首先从NameNode获得组成这个文件的数据块位置列表
根据列表知道存储数据块的DataNode
访问DataNode获取数据
NameNode并不参与数据实际传输
5, HDFS可靠性
可以在hdfs-site.xml中设置复制因子指定副本数量
所有数据块都有副本
DataNode启动时,遍历本地文件系统,产生一份HDFS数据块和本地文件的对应关系列表(blockreport)汇报给NameNode
6,机架策略
集群一般放在不同机架上,机架间带宽要比机架内带宽要小 HDFS的“机架感知” ,一般在本机架存放一个副本,在其它机架再存放别的副本,这样可以防止机架失效时丢失数据,也可以提高带宽利用率
7,心跳机制
1) NameNode周期性从DataNode接收心跳信号和块报告
2) NameNode根据块报告验证元数据
3) 没有按时发送心跳的DataNode会被标记为宕机,不会再给它任何I/O请求
4) 如果DataNode失效造成副本数量下降,并且低于预先设置的阈值,NameNode会检测出这些数据块,并在合适的时机进行重新复制
5) 引发重新复制的原因还包括数据副本本身损坏、磁盘错误,复制因子被增大等
8 校验和
在文件创立时,每个数据块都产生校验和
校验和会作为单独一个隐藏文件保存在命名空间下
客户端获取数据时可以检查校验和是否相同,从而发现数据块是否损坏
如果正在读取的数据块损坏,则可以继续读取其它副本
9,回收站
删除文件时,其实是放入回收站/trash ,回收站里的文件可以快速恢复,可以设置一个时间阈值,当回收站里文件的存放时间超过这个阈值,就被彻底删除,并且释放占用的数据块
10,元数据保护
映像文件和事务日志是NameNode的核心数据。可以配置为拥有多个副本,副本会降低NameNode的处理速度,但增加安全性 。NameNode依然是单点,如果发生故障要手工切换
11,HDFS文件操作常用命令:
选项名称 使用格式 含义
-ls -ls <路径> 查看指定路径的当前目录结构
-lsr -lsr <路径> 递归查看指定路径的目录结构
-du -du <路径> 统计目录下个文件大小
-dus -dus <路径> 汇总统计目录下文件(夹)大小
-count -count [-q] <路径> 统计文件(夹)数量
-mv -mv <源路径><目的路径> 移动
-cp -cp<源路径> <目的路径> 复制
-rm -rm [-skipTrash] <路径> 删除文件/空白文件夹
-rmr -rmr [-skipTrash] <路径> 递归删除
-put -put <多个linux上的文件> <hdfs路径> 上传文件
-copyFromLocal -copyFromLocal <多个linux上的文件><hdfs路径> 从本地复制
-moveFromLocal -moveFromLocal <多个linux上的文件><hdfs路径> 从本地移动
-getmerge -getmerge <源路径> <linux路径> 合并到本地
-cat -cat <hdfs路径> 查看文件内容
-text -text <hdfs路径> 查看文件内容
-copyToLocal -copyToLocal [-ignoreCrc] [-crc] [hdfs源路径] [linux目的路径] 从本地复制
-moveToLocal -moveToLocal [-crc] <hdfs源路径> <linux目的路径> 从本地移动
-mkdir -mkdir <hdfs路径> 创建空白文件夹
-setrep -setrep [-R] [-w] <副本数> <路径> 修改副本数量
-touchz -touchz <文件路径> 创建空白文件
-stat -stat [format] <路径> 显示文件统计信息
-tail -tail [-f] <文件> 查看文件尾部信息
-chmod -chmod [-R] <权限模式> [路径] 修改权限
-chown -chown [-R] [属主][:[属组]] 路径 修改属主
-chgrp -chgrp [-R] 属组名称 路径 修改属组
-help -help [命令选项] 帮助
简化hadoop命令,在用户根目录下 vi.bashrc
在最后添加:
aliasfs=\'hadoop fs\' # 定义一个别名,简单化名字
aliasfsa=\'hadoop dfsadmin\'
执行source .bashrc即可生效