【每天五分钟大数据-第一期】 伪分布式+Hadoopstreaming (4)

编写 main.sh 调度 mapper 和 reducer:

#!/bin/bash HADOOP_HOME="/usr/local/src/hadoop/hadoop-2.6.1/bin/hadoop" STREAM_JAR_PATH="/usr/local/src/hadoop/hadoop-2.6.1/share/hadoop/tools/lib/hadoop-streaming-2.6.1.jar" INPUT_PATH="/input" OUTPUT_PATH="/out_streaming" # 清空上次记录 ${HADOOP_HOME} dfs -rmr ${OUTPUT_PATH} ${HADOOP_HOME} jar ${STREAM_JAR_PATH} \ -input ${INPUT_PATH} \ -output ${OUTPUT_PATH} \ -mapper "python mapper.py" \ -reducer "python reducer.py" \ -file ./mapper.py \ -file ./reducer.py

下面当然是执行该文件了:

-x 可以查看执行的详细信息

sh -x main.sh

现在看下结果:

[root@iZ2zebkqy02hia7o7gj8paZ script]# hadoop fs -ls /out_streaming Found 2 items -rw-r--r-- 1 root supergroup 0 2021-12-07 15:43 /out_streaming/_SUCCESS -rw-r--r-- 1 root supergroup 48 2021-12-07 15:43 /out_streaming/part-00000 [root@iZ2zebkqy02hia7o7gj8paZ script]# hadoop fs -text /out_streaming/part-00000 flink 4 hadoop 6 hbase 4 hive 2 kafka 2 spark 8

现在显示的结果和上面使用系统默认wc提供程序的结果是一致的!

以上就是就关于「完虐大数据第一期」的全部分享了。

也本期算是作为一个大数据分享引子,下一期会把三台分布式集群的虚拟机分享出来,有需要的可以持续关注。

如果感觉内容对你有些许的帮助!

期待朋友们的点赞、在看!评论 和 转发!

下期想看哪方面的,评论区告诉我!

好了~ 咱们下期再见!bye~~

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/zwdffw.html