RDD概念、特性、缓存策略与容错

日期：2021-05-21 栏目：程序人生浏览：次

一、RDD概念与特性 1. RDD的概念

　　RDD（Resilient Distributed Dataset），是指弹性分布式数据集。数据集：Spark中的编程是基于RDD的，将原始数据加载到内存变成RDD，RDD再经过若干次转化，仍为RDD。分布式：读数据一般都是从分布式系统中去读，如hdfs、kafka等，所以原始文件存在磁盘是分布式的，spark加载完数据的RDD也是分布式的，换句话说RDD是抽象的概念，实际数据仍在分布式文件系统中；因为有了RDD，在开发代码过程会非常方便，只需要将原始数据理解为一个集合，然后对集合进行操作即可。RDD里面每一块数据/partition，分布在某台机器的物理节点上，这是物理概念。弹性：这里是指数据集会进行转换，所以会忽大忽小，partition数量忽多忽少。

2. RDD的特性

　　Spark-1.6.1源码在org.apache.spark.rdd下的RDD.scala指出了每一个RDD都具有五个主要特点，如下：

RDD概念、特性、缓存策略与容错

A list of partion

　　RDD是由一组partition组成。例如要读取hdfs上的文本文件的话，可以使用textFile()方法把hdfs的文件加载过来，把每台机器的数据放到partition中，并且封装了一个HadoopRDD，这就是一个抽象的概念。每一个partition都对应了机器中的数据。因为在hdfs中的一个Datanode，有很多的block，读机器的数据时，会将每一个block变成一个partition，与MapReduce中split的大小由min split，max split，block size （max(min split, min(max split, block size))）决定的相同，spark中的partition大小实际上对应了一个split的大小。经过转化，HadoopRDD会转成其他RDD，如FilteredRDD、PairRDD等，但是partition还是相应的partition，只是因为有函数应用里面的数据变化了。

A function for computing each split

　　对每个split（partition）都有函数操作。一个函数应用在一个RDD上，可以理解为一个函数对集合（RDD）内的每个元素（split）的操作。

A list of dependencies on other RDDs

　　一个RDD依赖于一组RDD。例如，下列代码片段

val lines=sc.textFlie("hdfs://namenode:8020/path/file.txt") val wc=lines.flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).sortBy(_._2) wc.foreach(println)
sc.stop()

转载注明出处：https://www.heiqu.com/wpgwxf.html

RDD概念、特性、缓存策略与容错

相关推荐