【大数据】科普一下大数据的那些事儿 (3)

6、Pig(目前用的很少了)
Apache Pig是用于分析和查询HDFS中存储的巨大数据集的高级语言平台。Pig作为Hadoop生态系统的组成部分,使用PigLatin语言。它与SQL非常相似。它加载数据,应用所需的过滤器并以所需格式转储数据。为了执行程序,Pig需要Java运行时环境。

7、HBase
Apache HBase是Hadoop生态系统组件,它是一个分布式数据库,旨在将结构化数据存储在可能具有数十亿行和数百万列的表中。 HBase是基于HDFS构建的可扩展,分布式和NoSQL数据库。 HBase,提供对HDFS中读取或写入数据的实时访问。

【大数据】科普一下大数据的那些事儿


有两个HBase组件,即HBase Master和RegionServer。HBaseMaster,它不是实际数据存储的一部分,而是协商所有RegionServer之间的负载平衡,同时其维护和监视Hadoop集群。具体来说,它执行管理(用于创建,更新和删除表的界面。)、控制故障转移、处理DDL操作。RegionServer是工作节点,负责处理来自客户端的读取,写入,更新和删除请求,进程在Hadoop群集中的每个节点上运行,一般与HDFS DateNode节点保持一致,保证计算向数据移动的特性。
8、HCatalog
Apache HCatalog是Hadoop的表和存储的管理层。它支持Hadoop生态系统中可用的不同组件,例如MapReduce,Hive等,以轻松地从集群读取和写入数据。HCatalog是Hive的关键组件,使用户能够以任何格式和结构存储其数据。在默认情况下,HCatalog支持RCFile,CSV,JSON,sequenceFile和ORC文件格式。
9、Avro
Acro是Hadoop生态系统的一部分,是最流行的数据序列化系统。Avro是一个开源项目,为Hadoop提供数据序列化和数据交换服务。这些服务可以一起使用,也可以独立使用。大数据可以使用Avro交换以不同语言编写的程序。使用序列化服务程序可以将数据序列化为文件或消息。它将数据定义和数据存储在一个消息或文件中,使程序可以轻松地动态了解存储在Avro文件或消息中的信息。Avro模式–依靠模式进行序列化/反序列化。Avro需要用于数据写入/读取的架构。当Avro数据存储在文件中时,其架构也随之存储,因此以后任何程序都可以处理文件。动态类型化–指不生成代码的序列化和反序列化。它补充了代码生成功能,该功能可在Avro中用于静态类型的语言,作为可选优化。
10、Thrift
Apache Thrift是一个轻量级、跨语言的远程服务调用框架,最初是由FaceBook开发,后面进入了Apache开源项目。它通过自身的IDL中间语言, 并借助代码生成引擎生成各种主流语言的RPC服务端/客户端模板代码。在Hadoop的技术生态中,很多技术均用到了此框架的技术。

【大数据】科普一下大数据的那些事儿

11、Drill
Apache Drill是一个低延迟的分布式海量数据(涵盖结构化、半结构化以及嵌套数据)交互式查询引擎,使用ANSI SQL兼容语法,支持本地文件、HDFS、HBase、MongoDB等后端存储,支持Parquet、JSON、CSV、TSV、PSV等数据格式。本质上Apache Drill是一个分布式的mpp(大规模并行处理)查询层。Drill的目的在于支持更广泛的数据源,数据格式,以及查询语言。受Google的Dremel启发,Drill满足上千节点的PB级别数据的交互式商业智能分析场景。

12、Mahout
Apache Mahout提供了一些经典的机器学习的算法,皆在帮助开发人员更加方便快捷地创建智能应用程序。通过ApacheMahout库,Mahout可以有效地扩展到云中。Mahout包括许多实现,包括聚类、分类、推荐引擎、频繁子项挖掘。Apache Mahout的主要目标是建立可伸缩的机器学习算法。这种可伸缩性是针对大规模的数据集而言的。通过Apache Mahout的算法库,Mahout可以有效地使用Hadoop集群的能力进行机器学习的计算与分析。

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/wpyjsd.html