BigData

小白大数据学习笔记 ⭐

一、Hadoop

模块	Blog
Hadoop概述	关于Hadoop你应该了解这些！
搭建Hadoop运行环境	准备三台CentOS虚拟机
	安装Java、Hadoop以及编写集群分发脚本
	重头戏：配置Hadoop集群
	群起集群并进行测试
	编写Hadoop集群启停脚本以及查看集群Java进程脚本
HDFS	HDFS是个什么东西？
	HDFS常用Shell命令图文详解
	搭建HDFS客户端API环境
	HDFS API操作详解.md
	HDFS读写流程图文详解
	HDFS NameNode和SecondaryNameNode工作机制
	HDFS DataNode工作机制
MapReduce	MapReduce概述及核心编程思想
	图解MapReduce编程规范
	MapReduce WordCount案例实操
	MapReduce 序列化
	MapReduce InputFormat 数据输入框架原理
	MapReduce Shuffle机制之Partition分区
	MapReduce Shuffle机制之WritableComparable排序
	MapReduce Shuffle机制之Combiner合并
	MapReduce OutputFormat数据输出框架原理
	MapReduce MapTask与ReduceTask工作机制
	MapReduce Join应用
	MapReduce ETL数据清洗案例实操
	MapReduce 数据压缩
Yarn	Yarn 基础架构、工作机制及作业提交全过程

二、Zookeeper

模块	Blog
Zookeeper概述	Zookeeper是个什么东西？
安装部署	Zookeeper 分布式安装部署
如何操作？	Zookeeper 客户端命令行与API操作
案例实操	Zookeeper 案例：服务器动态上下线监听

三、Hive

模块	Blog
Hive概述	Hive的基本概念
安装部署	Hive安装部署并替换derby为MySQL
Hive操作数据	Hive数据类型
	HiveSQL DDL数据定义
	Hive 导入与导出数据
	HiveSQL DML数据查询
	Hive 分区表与分桶表
	Hive 常用函数汇总以及练习
	Hive 如何自定义函数
	Hive 压缩和存储
调优	Hive企业级调优
实战	Hive 实战！分析视频网站TopN数据

四、Flume

模块	Blog
Flume概述	Flume 是什么？都由什么组成？
安装部署以及入门案例	Flume 分布式安装部署以及入门案例
内部原理	Flume中的事务、Agent内部原理、拓扑结构及对应案例
自定义组件	Flume自定义Interceptor、Source与Sink

五、Kafka

模块	Blog
Kafka极速入门	Kafka 是个什么东西？
	Kafka 分布式安装部署
	Kafka 常用命令行操作
Kafka Producer	Producer 生产者消息发送原理
	Producer 异步与同步以及分区API操作
	Producer 生产者的生产经验
Kafka Broker	Broker 工作流程以及节点服役和退役
	Broker 副本机制详解
	Broker 文件存储、清理机制以及高效读写数据
Kafka Consumer	Consumer 消费者工作原理
	Consumer 消费者API操作
	Consumer 消费者组分区的分配以及再平衡
	Offset位移详解
大屏监控Kafka	Kafka Eagle(EFAK)监控安装部署
Kafka-Kraft	Kafka-Kraft 模式的安装与部署
Kafka 与外部系统集成	Kafka集成Flume
	Kafka集成Spark，留坑
	Kafka集成Flink，留坑
	Kafka集成Spring Boot，留坑

六、HBase

模块	Blog
概述	关于HBase你应该知道这些！
上手操作HBase	搭建HBase分布式环境
	HBase Shell操作快速入门！
	HBase DDL API操作
	HBase DML API操作
	在更！

七、Spark（Scala版）

模块	Blog
Spark 前戏	Spark 之前一定要会的Scala！
Spark 极速入门	Spark 概述及WordCount案例
	Spark 搭建Local、StandAlone、Yarn三种模式运行环境
Spark Core	如何做到分布式计算？
	Java IO流与Spark RDD至简的关系
	Spark RDD是啥？及其执行原理
	Spark 创建RDD以及设置它的并行度与分区
	Spark RDD转换算子速查手册以及案例解析
	Spark RDD行动算子速查手册以及案例解析
	Spark RDD序列化
	Spark RDD依赖关系
	Spark RDD持久化
	Spark RDD分区器
	Spark 累加器与广播变量
	Spark Core 案例实操——分析电商网站行为数据
Spark SQL	SparkSQL 概述、DataFrame、DataSet
	SparkSQL 用户自定义函数
	SparkSQL 数据的加载和保存
Spark Streaming	待更

项目实战

1、电商数仓

模块	Blog
用户行为数据采集平台	项目需求及架构设计
	模拟生成用户行为日志数据
	打通行为日志采集通道！
业务数据采集平台	模拟生成用户业务数据
	全量同步？增量同步？都是什么？
	数据全量同步工具DataX
	数据增量同步工具Maxwell
	打通全量数据同步通道！

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

BigData

一、Hadoop

二、Zookeeper

三、Hive

四、Flume

五、Kafka

六、HBase

七、Spark（Scala版）

项目实战

1、电商数仓

参考资料

About

Releases

Packages

Languages

Name		Name	Last commit message	Last commit date
Latest commit History 126 Commits
Flink		Flink
Flume		Flume
HBase		HBase
Hadoop		Hadoop
Hive		Hive
JUC		JUC
Kafka		Kafka
Netty		Netty
Project		Project
Spark		Spark
Zookeeper		Zookeeper
.gitignore		.gitignore
README.md		README.md

wzqwtt/BigData

Folders and files

Latest commit

History

Repository files navigation

BigData

一、Hadoop

二、Zookeeper

三、Hive

四、Flume

五、Kafka

六、HBase

七、Spark（Scala版）

项目实战

1、电商数仓

参考资料

About

Topics

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages