大数据入门指南（GitHub开源项目）

日期：2021-06-28 栏目：程序人生浏览：次

项目GitHub地址：https://github.com/heibaiying/BigData-Notes

✒️ 前言

大数据技术栈思维导图

大数据常用软件安装指南

一、Hadoop

分布式文件存储系统——HDFS

分布式计算框架——MapReduce

集群资源管理器——YARN

Hadoop单机伪集群环境搭建

Hadoop集群环境搭建

HDFS常用Shell命令

HDFS Java API的使用

基于Zookeeper搭建Hadoop高可用集群

二、Hive

Hive简介及核心概念

Linux环境下Hive的安装部署

Hive CLI和Beeline命令行的基本使用

Hive 常用DDL操作

Hive 分区表和分桶表

Hive 视图和索引

Hive常用DML操作

Hive 数据查询详解

三、Spark

Spark Core :

Spark简介

Spark开发环境搭建

弹性式数据集RDD

RDD常用算子详解

Spark运行模式与作业提交

Spark累加器与广播变量

基于Zookeeper搭建Spark高可用集群

Spark SQL :

DateFrame 和 DataSet

Structured API的基本使用

Spark SQL外部数据源

Spark SQL常用聚合函数

Spark SQL JOIN 操作

Spark Streaming ：

Spark Streaming 简介

Spark Streaming 基本操作

Spark Streaming 整合 Flume

Spark Streaming 整合 Kafka

四、Storm

Storm和流处理简介

Storm核心概念详解

Storm单机环境搭建

Storm集群环境搭建

Storm编程模型详解

Storm项目三种打包方式对比分析

Storm集成Redis详解

Storm集成HDFS/HBase

Storm集成Kafka

五、Flink

TODO

六、HBase

Hbase 简介

HBase系统架构及数据结构

HBase基本环境搭建(Standalone /pseudo-distributed mode)

HBase集群环境搭建

HBase常用Shell命令

HBase Java API

Hbase 过滤器详解

HBase 协处理器详解

HBase 容灾与备份

HBase的SQL中间层——Phoenix

Spring/Spring Boot 整合 Mybatis + Phoenix

七、Kafka

Kafka 简介

基于Zookeeper搭建Kafka高可用集群

Kafka 生产者详解

Kafka 消费者详解

深入理解Kafka副本机制

八、Zookeeper

Zookeeper 简介及核心概念

Zookeeper单机环境和集群环境搭建

Zookeeper常用Shell命令

Zookeeper Java 客户端——Apache Curator

Zookeeper ACL权限控制

九、Flume

Flume简介及基本使用

Linux环境下Flume的安装部署

Flume整合Kafka

十、Sqoop

Sqoop简介与安装

Sqoop的基本使用

十一、Azkaban

Azkaban简介

Azkaban3.x 编译及部署

Azkaban Flow 1.0 的使用

Azkaban Flow 2.0 的使用

十二、Scala

Scala简介及开发环境配置

基本数据类型和运算符

流程控制语句

数组——Array

集合类型综述

常用集合类型之——List & Set

常用集合类型之——Map & Tuple

类和对象

继承和特质

函数 & 闭包 & 柯里化

模式匹配

类型参数

隐式转换和隐式参数

十三、公共内容

大数据应用常用打包方式

内容版权声明：除非注明，否则皆为本站原创文章。

转载注明出处：https://www.heiqu.com/zydfwd.html