Hadoop(3)hdfs功能详解、hdfs架构剖析、hdfs优缺点 (2)

为了保证block块的安全性,也就是数据的安全性,文件默认保存三个副本,我们可以更改副本数以提高数据的安全性,在hdfs-site.xml当中修改以下配置属性,即可更改文件的副本数:

<property> <name>dfs.replication</name> <value>3</value> </property> <!--修改之后,之前保存的文件的副本数保持不变,之后存入的文件的副本数会发生变化-->

块缓存

通常DataNode从磁盘中读取块,但对于访问频繁的文件,其对应的块可能被缓存在DataNode的内存中,以堆外块缓存的形式存在。默认情况下,一个块仅缓存在一个DataNode的内存中,当然可以针对每个文件配置DataNode的数量。作业调度器通过在缓存块的DataNode上运行任务,可以利用块缓存的优势提高读操作的性能。

例如: 连接(join)操作中使用的一个小的查询表就是块缓存的一个很好的候选。
用户或应用通过在缓存池中增加一个cache directive来告诉namenode需要缓存哪些文件及存多久。缓存池(cache pool)是一个拥有管理缓存权限和资源使用的管理性分组。

hdfs的文件权限验证

hdfs的文件权限机制与linux系统的文件权限机制类似:r:read w:write x:execute

image-20200209232222446

删除一个文件需要的是具有该文件所在目录的写权限,而不是具有该文件的写权限,文件的写权限只能够修改文件内容,HDFS文件权限的目的,防止好人做错事,而不是阻止坏人做坏事。HDFS相信你告诉我你是谁,你就是谁

通过shell修改hdfs系统文件的权限和所有者:

hdfs dfs -chown /文件 hdfs dfs -chmode /文件 hdfs的端口号

查看core-site.xml配置文件,可以看到hdfs文件系统的端口号是8020

<property> <name>fs.defaultFS</name> <value>hdfs://node01:8020</value> </property> hdfs的优缺点 hdfs的优点

(1) 高容错性

数据自动保存多个副本。它通过增加副本的形式,提高容错性。

某一个副本丢失以后,它可以自动恢复,这是由 HDFS 内部机制实现的,我们不必关心。

(2) 适合批处理

它是通过移动计算而不是移动数据。

它会把数据位置暴露给计算框架。

(3) 适合大数据处理

数据规模:能够处理数据规模达到 GB、TB、甚至PB级别的数据。

文件规模:能够处理百万规模以上的文件数量,数量相当之大。

节点规模:能够处理10K节点的规模。

(4) 流式数据访问

一次写入,多次读取,不能修改,只能追加。

它能保证数据的一致性。

(5) 可构建在廉价机器上

它通过多副本机制,提高可靠性。

它提供了容错和恢复机制。比如某一个副本丢失,可以通过其它副本来恢复。

hdfs的缺点

(1) 不适合低延时数据访问;

比如毫秒级的来存储数据,这是不行的,它做不到。

它适合高吞吐率的场景,就是在某一时间内写入大量的数据。但是它在低延时的情况下是不行的,比如毫秒级以内读取数据,这样它是很难做到的。

改进策略:使用Hbase

(2) 无法高效的对大量小文件进行存储

存储大量小文件的话,它会占用 NameNode大量的内存来存储文件、目录和块信息。这样是不可取的,因为NameNode的内存总是有限的。

小文件存储的寻道时间会超过读取时间,它违反了HDFS的设计目标。 改进策略

(3) 不支持并发写入、不支持文件随机修改

一个文件只能有一个写,不允许多个线程同时写。(支持并发读取)

仅支持数据 append(追加),不支持文件的随机修改。

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/zwxpsw.html