一、大数据相关工作介绍
根据目前市面上比较常见的岗位,大数据方向的工作目前主要分为几个主要方向:
- 大数据工程师
- 数据分析师
- 大数据架构师
- 算法与数据挖掘工程师
- BI报表工程师
其中也有一些大数据项目经理和产品经理,这类对技术要求不是不是很多,尤其中小型公司
二、大数据工程师的技能要求
附上大数据工程师技能图:

必须掌握的技能11条
- Java高级(虚拟机、并发)
- Linux 基本操作
- Hadoop(HDFS+MapReduce+Yarn )
- HBase(JavaAPI操作+Phoenix )
- Hive(Hql基本操作和原理理解)
- Kafka
- Storm/JStorm
- Scala
- Python
- Spark (Core+sparksql+Spark streaming )
- 辅助小工具(Sqoop/Flume/Oozie/Hue等)
高阶技能6条
- 机器学习算法以及mahout库加MLlib
- R语言
- Lambda 架构
- Kappa架构
- Kylin
- Alluxio
三、学习路径
其实,作为一个大数据相关人员,不得不知道的一个常识就是 Google三驾马车
- 《Google file system》:论述了怎样借助普通机器有效的存储海量的大数据;
- 《Google MapReduce》:论述了怎样快速计算海量的数据;
- 《Google BigTable》:论述了怎样实现海量数据的快速查询;
如果耐心足够强,或者英语阅读能力足够强,从这三篇文章开始写觉得的最直接,最靠谱的方式,但是前提是需要有一定的Linux基础,java或者scala,python语言的开发基础,那么接下来我们就从具体的学习开始。
假设每天可以抽出3个小时的有效学习时间,加上周末每天保证10个小时的有效学习时间;
第一阶段(基础阶段)
1)Linux学习(跟鸟哥学就ok了)
- Linux操作系统介绍与安装。
- Linux常用命令。
- Linux常用软件安装。
- Linux网络。
- 防火墙。
- Shell编程等。
官网:https://www.centos.org/download/
中文社区:http://www.linuxidc.com/Linux/2017-09/146919.htm
官网:https://www.java.com/zh_CN/
中文社区:http://www.java-cn.com/index.html
第二阶段(攻坚阶段)
3)Hadoop (《Hadoop 权威指南》)
- HDFS
- HDFS的概念和特性。
- HDFS的shell操作。
- HDFS的工作机制。
- HDFS的Java应用开发。
- MapReduce
- 运行WordCount示例程序。
- 了解MapReduce内部的运行机制。
- MapReduce程序运行流程解析。
- MapTask并发数的决定机制。
- MapReduce中的combiner组件应用。
- MapReduce中的序列化框架及应用。
- MapReduce中的排序。
- MapReduce中的自定义分区实现。
- MapReduce的shuffle机制。
- MapReduce利用数据压缩进行优化。
- MapReduce程序与YARN之间的关系。
- MapReduce参数优化。
- MapReduce的Java应用开发
官网:http://hadoop.apache.org/
中文文档:http://hadoop.apache.org/docs/r1.0.4/cn/
中文社区:http://www.aboutyun.com/forum-143-1.html
4)Hive(《Hive开发指南》)
Hive 基本概念
- Hive 应用场景。
- Hive 与hadoop的关系。
- Hive 与传统数据库对比。
- Hive 的数据存储机制。
- Hive 基本操作
- Hive 中的DDL操作。
- 在Hive 中如何实现高效的JOIN查询。
- Hive 的内置函数应用。
- Hive shell的高级使用方式。
- Hive 常用参数配置。
- Hive 自定义函数和Transform的使用技巧。
- Hive UDF/UDAF开发实例。
- Hive 执行过程分析及优化策略
官网:https://hive.apache.org/
中文入门文档:http://www.aboutyun.com/thread-11873-1-1.html
中文社区:http://www.aboutyun.com/thread-7598-1-1.html
官网:http://zookeeper.apache.org/
中文社区:http://www.aboutyun.com/forum-149-1.html
6)HBase(《HBase权威指南》)
- hbase简介。
- habse安装。
- hbase数据模型。
- hbase命令。
- hbase开发。
一、大数据相关工作介绍
根据目前市面上比较常见的岗位,大数据方向的工作目前主要分为几个主要方向:
- 大数据工程师
- 数据分析师
- 大数据架构师
- 算法与数据挖掘工程师
- BI报表工程师
其中也有一些大数据项目经理和产品经理,这类对技术要求不是不是很多,尤其中小型公司
二、大数据工程师的技能要求
附上大数据工程师技能图:

必须掌握的技能11条
- Java高级(虚拟机、并发)
- Linux 基本操作
- Hadoop(HDFS+MapReduce+Yarn )
- HBase(JavaAPI操作+Phoenix )
- Hive(Hql基本操作和原理理解)
- Kafka
- Storm/JStorm
- Scala
- Python
- Spark (Core+sparksql+Spark streaming )
- 辅助小工具(Sqoop/Flume/Oozie/Hue等)
高阶技能6条
- 机器学习算法以及mahout库加MLlib
- R语言
- Lambda 架构
- Kappa架构
- Kylin
- Alluxio
三、学习路径
其实,作为一个大数据相关人员,不得不知道的一个常识就是 Google三驾马车
- 《Google file system》:论述了怎样借助普通机器有效的存储海量的大数据;
- 《Google MapReduce》:论述了怎样快速计算海量的数据;
- 《Google BigTable》:论述了怎样实现海量数据的快速查询;
如果耐心足够强,或者英语阅读能力足够强,从这三篇文章开始写觉得的最直接,最靠谱的方式,但是前提是需要有一定的Linux基础,java或者scala,python语言的开发基础,那么接下来我们就从具体的学习开始。
假设每天可以抽出3个小时的有效学习时间,加上周末每天保证10个小时的有效学习时间;
第一阶段(基础阶段)
1)Linux学习(跟鸟哥学就ok了)
- Linux操作系统介绍与安装。
- Linux常用命令。
- Linux常用软件安装。
- Linux网络。
- 防火墙。
- Shell编程等。
官网:https://www.centos.org/download/
中文社区:http://www.linuxidc.com/Linux/2017-09/146919.htm
官网:https://www.java.com/zh_CN/
中文社区:http://www.java-cn.com/index.html
第二阶段(攻坚阶段)
3)Hadoop (《Hadoop 权威指南》)
- HDFS
- HDFS的概念和特性。
- HDFS的shell操作。
- HDFS的工作机制。
- HDFS的Java应用开发。
- MapReduce
- 运行WordCount示例程序。
- 了解MapReduce内部的运行机制。
- MapReduce程序运行流程解析。
- MapTask并发数的决定机制。
- MapReduce中的combiner组件应用。
- MapReduce中的序列化框架及应用。
- MapReduce中的排序。
- MapReduce中的自定义分区实现。
- MapReduce的shuffle机制。
- MapReduce利用数据压缩进行优化。
- MapReduce程序与YARN之间的关系。
- MapReduce参数优化。
- MapReduce的Java应用开发
官网:http://hadoop.apache.org/
中文文档:http://hadoop.apache.org/docs/r1.0.4/cn/
中文社区:http://www.aboutyun.com/forum-143-1.html
4)Hive(《Hive开发指南》)
Hive 基本概念
- Hive 应用场景。
- Hive 与hadoop的关系。
- Hive 与传统数据库对比。
- Hive 的数据存储机制。
- Hive 基本操作
- Hive 中的DDL操作。
- 在Hive 中如何实现高效的JOIN查询。
- Hive 的内置函数应用。
- Hive shell的高级使用方式。
- Hive 常用参数配置。
- Hive 自定义函数和Transform的使用技巧。
- Hive UDF/UDAF开发实例。
- Hive 执行过程分析及优化策略
官网:https://hive.apache.org/
中文入门文档:http://www.aboutyun.com/thread-11873-1-1.html
中文社区:http://www.aboutyun.com/thread-7598-1-1.html
官网:http://zookeeper.apache.org/
中文社区:http://www.aboutyun.com/forum-149-1.html
6)HBase(《HBase权威指南》)
- hbase简介。
- habse安装。
- hbase数据模型。
- hbase命令。
- hbase开发。
一、大数据相关工作介绍
根据目前市面上比较常见的岗位,大数据方向的工作目前主要分为几个主要方向:
- 大数据工程师
- 数据分析师
- 大数据架构师
- 算法与数据挖掘工程师
- BI报表工程师
其中也有一些大数据项目经理和产品经理,这类对技术要求不是不是很多,尤其中小型公司
二、大数据工程师的技能要求
附上大数据工程师技能图:

必须掌握的技能11条
- Java高级(虚拟机、并发)
- Linux 基本操作
- Hadoop(HDFS+MapReduce+Yarn )
- HBase(JavaAPI操作+Phoenix )
- Hive(Hql基本操作和原理理解)
- Kafka
- Storm/JStorm
- Scala
- Python
- Spark (Core+sparksql+Spark streaming )
- 辅助小工具(Sqoop/Flume/Oozie/Hue等)
高阶技能6条
- 机器学习算法以及mahout库加MLlib
- R语言
- Lambda 架构
- Kappa架构
- Kylin
- Alluxio
三、学习路径
其实,作为一个大数据相关人员,不得不知道的一个常识就是 Google三驾马车
- 《Google file system》:论述了怎样借助普通机器有效的存储海量的大数据;
- 《Google MapReduce》:论述了怎样快速计算海量的数据;
- 《Google BigTable》:论述了怎样实现海量数据的快速查询;
如果耐心足够强,或者英语阅读能力足够强,从这三篇文章开始写觉得的最直接,最靠谱的方式,但是前提是需要有一定的Linux基础,java或者scala,python语言的开发基础,那么接下来我们就从具体的学习开始。
假设每天可以抽出3个小时的有效学习时间,加上周末每天保证10个小时的有效学习时间;
第一阶段(基础阶段)
1)Linux学习(跟鸟哥学就ok了)
- Linux操作系统介绍与安装。
- Linux常用命令。
- Linux常用软件安装。
- Linux网络。
- 防火墙。
- Shell编程等。
官网:https://www.centos.org/download/
中文社区:http://www.linuxidc.com/Linux/2017-09/146919.htm
官网:https://www.java.com/zh_CN/
中文社区:http://www.java-cn.com/index.html
第二阶段(攻坚阶段)
3)Hadoop (《Hadoop 权威指南》)
- HDFS
- HDFS的概念和特性。
- HDFS的shell操作。
- HDFS的工作机制。
- HDFS的Java应用开发。
- MapReduce
- 运行WordCount示例程序。
- 了解MapReduce内部的运行机制。
- MapReduce程序运行流程解析。
- MapTask并发数的决定机制。
- MapReduce中的combiner组件应用。
- MapReduce中的序列化框架及应用。
- MapReduce中的排序。
- MapReduce中的自定义分区实现。
- MapReduce的shuffle机制。
- MapReduce利用数据压缩进行优化。
- MapReduce程序与YARN之间的关系。
- MapReduce参数优化。
- MapReduce的Java应用开发
官网:http://hadoop.apache.org/
中文文档:http://hadoop.apache.org/docs/r1.0.4/cn/
中文社区:http://www.aboutyun.com/forum-143-1.html
4)Hive(《Hive开发指南》)
Hive 基本概念
- Hive 应用场景。
- Hive 与hadoop的关系。
- Hive 与传统数据库对比。
- Hive 的数据存储机制。
- Hive 基本操作
- Hive 中的DDL操作。
- 在Hive 中如何实现高效的JOIN查询。
- Hive 的内置函数应用。
- Hive shell的高级使用方式。
- Hive 常用参数配置。
- Hive 自定义函数和Transform的使用技巧。
- Hive UDF/UDAF开发实例。
- Hive 执行过程分析及优化策略
官网:https://hive.apache.org/
中文入门文档:http://www.aboutyun.com/thread-11873-1-1.html
中文社区:http://www.aboutyun.com/thread-7598-1-1.html
官网:http://zookeeper.apache.org/
中文社区:http://www.aboutyun.com/forum-149-1.html
6)HBase(《HBase权威指南》)
- hbase简介。
- habse安装。
- hbase数据模型。
- hbase命令。
- hbase开发。