Spark Streaming入门

日期：2021-05-08 栏目：程序人生浏览：次

本文将帮助您使用基于HBase的Apache Spark Streaming。Spark Streaming是Spark API核心的一个扩展，支持连续的数据流处理。

什么是Spark Streaming？

首先，什么是流（streaming）？数据流是连续到达的无穷序列。流处理将不断流动的输入数据分成独立的单元进行处理。流处理是对流数据的低延迟处理和分析。Spark Streaming是Spark API核心的扩展，可实现实时数据的快速扩展，高吞吐量，高容错处理。Spark Streaming适用于大量数据的快速处理。实时处理用例包括：

网站监控，网络监控

欺诈识别

网页点击

物联网传感器

Spark Streaming支持如HDFS目录，TCP套接字，Kafka，Flume，Twitter等数据源。数据流可以用Spark 的核心API，DataFrames SQL，或机器学习的API进行处理，并且可以被保存到HDFS，databases或Hadoop OutputFormat提供的任何文件系统中去。

Spark Streaming入门

转载注明出处：https://www.heiqu.com/wspzys.html

Spark Streaming入门

相关推荐