Spark学习进度-实战测试

spark-shell  交互式编程

题目:该数据集包含了某大学计算机系的成绩,数据格式如下所示:

 

Tom,DataBase,80

 

Tom,Algorithm,50

 

Tom,DataStructure,60

 

Jim,DataBase,90

 

Jim,Algorithm,60

 

Jim,DataStructure,80

 

……

 

请根据给定的实验数据,在 spark-shell 中通过编程来计算以下内容:

 

(1)该系总共有多少学生;

 

Spark学习进度-实战测试

(2)该系共开设来多少门课程;

 

Spark学习进度-实战测试

(3)Tom 同学的总成绩平均分是多少;

 

Spark学习进度-实战测试

(4)求每名同学的选修的课程门数;

 

Spark学习进度-实战测试

共265行

(5)该系 DataBase 课程共有多少人选修;

 

Spark学习进度-实战测试

(6)各门课程的平均分是多少;

 

Spark学习进度-实战测试

(7)使用累加器计算共有多少人选了 DataBase 这门课。

 

Spark学习进度-实战测试

 

 独立应用 实现数据去重,连接,排序

对于两个输入文件 A 和 B,编写 Spark 独立应用程序,对两个文件进行合并,并剔除其

中重复的内容,得到一个新文件 C。下面是输入文件和输出文件的一个样例,供参考。

输入文件 A 的样例如下:

20170101 x

20170102 y

20170103 x

20170104 y

20170105 z

20170106 z

输入文件 B 的样例如下:

20170101 y

20170102 y

20170103 x

20170104 z

20170105 y

根据输入的文件 A 和 B 合并得到的输出文件 C 的样例如下:

20170101 x

20170101 y

20170102 y

20170103 x

20170104 y

20170104 z

20170105 y

20170105 z

20170106 z

代码:

@Test def test(): Unit ={ val conf=new SparkConf().setMaster("local[6]").setAppName("xlf_union") val sc=new SparkContext(conf) val ra=sc.textFile("dataset/a.txt") val rb=sc.textFile("dataset/b.txt") val rc=ra.union(rb) .distinct() .map(item => (item.split(" ")(0),item.split(" ")(1))) .sortBy(item =>(item._1,item._2)) .collect() val file = "dataset/c.txt" val writer = new BufferedWriter(new OutputStreamWriter(new FileOutputStream(file))) for(x<- rc) { println(x) writer.write(x+"\n") } writer.close() }

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/wpddyy.html