Spark学习进度-实战测试

日期：2021-05-25 栏目：程序人生浏览：次

spark-shell 交互式编程

题目：该数据集包含了某大学计算机系的成绩，数据格式如下所示：

Tom,DataBase,80

Tom,Algorithm,50

Tom,DataStructure,60

Jim,DataBase,90

Jim,Algorithm,60

Jim,DataStructure,80

……

请根据给定的实验数据，在 spark-shell 中通过编程来计算以下内容：

（1）该系总共有多少学生；

Spark学习进度-实战测试

（2）该系共开设来多少门课程；

Spark学习进度-实战测试

（3）Tom 同学的总成绩平均分是多少；

Spark学习进度-实战测试

（4）求每名同学的选修的课程门数；

Spark学习进度-实战测试

共265行

（5）该系 DataBase 课程共有多少人选修；

Spark学习进度-实战测试

（6）各门课程的平均分是多少；

Spark学习进度-实战测试

（7）使用累加器计算共有多少人选了 DataBase 这门课。

Spark学习进度-实战测试

独立应用实现数据去重，连接，排序

对于两个输入文件 A 和 B，编写 Spark 独立应用程序，对两个文件进行合并，并剔除其

中重复的内容，得到一个新文件 C。下面是输入文件和输出文件的一个样例，供参考。

输入文件 A 的样例如下：

20170101 x

20170102 y

20170103 x

20170104 y

20170105 z

20170106 z

输入文件 B 的样例如下：

20170101 y

20170102 y

20170103 x

20170104 z

20170105 y

根据输入的文件 A 和 B 合并得到的输出文件 C 的样例如下：

20170101 x

20170101 y

20170102 y

20170103 x

20170104 y

20170104 z

20170105 y

20170105 z

20170106 z

代码：

@Test def test(): Unit ={ val conf=new SparkConf().setMaster("local[6]").setAppName("xlf_union") val sc=new SparkContext(conf) val ra=sc.textFile("dataset/a.txt") val rb=sc.textFile("dataset/b.txt") val rc=ra.union(rb) .distinct() .map(item => (item.split(" ")(0),item.split(" ")(1))) .sortBy(item =>(item._1,item._2)) .collect() val file = "dataset/c.txt" val writer = new BufferedWriter(new OutputStreamWriter(new FileOutputStream(file))) for(x<- rc) { println(x) writer.write(x+"\n") } writer.close() }

转载注明出处：https://www.heiqu.com/wpddyy.html

Spark学习进度-实战测试

相关推荐