9b625e574d875d9ae71c43bc84cbda6d
大数据求职之路

一、大数据相关工作介绍

根据目前市面上比较常见的岗位,大数据方向的工作目前主要分为几个主要方向:

  • 大数据工程师
  • 数据分析师
  • 大数据架构师
  • 算法与数据挖掘工程师
  • BI报表工程师

其中也有一些大数据项目经理和产品经理,这类对技术要求不是不是很多,尤其中小型公司

二、大数据工程师的技能要求

附上大数据工程师技能图:

必须掌握的技能11条
  • Java高级(虚拟机、并发)
  • Linux 基本操作
  • Hadoop(HDFS+MapReduce+Yarn )
  • HBase(JavaAPI操作+Phoenix )
  • Hive(Hql基本操作和原理理解)
  • Kafka
  • Storm/JStorm
  • Scala
  • Python
  • Spark (Core+sparksql+Spark streaming )
  • 辅助小工具(Sqoop/Flume/Oozie/Hue等)
高阶技能6条
  • 机器学习算法以及mahout库加MLlib
  • R语言
  • Lambda 架构
  • Kappa架构
  • Kylin
  • Alluxio

三、学习路径

其实,作为一个大数据相关人员,不得不知道的一个常识就是 Google三驾马车

  • 《Google file system》:论述了怎样借助普通机器有效的存储海量的大数据;
  • 《Google MapReduce》:论述了怎样快速计算海量的数据;
  • 《Google BigTable》:论述了怎样实现海量数据的快速查询;

如果耐心足够强,或者英语阅读能力足够强,从这三篇文章开始写觉得的最直接,最靠谱的方式,但是前提是需要有一定的Linux基础,java或者scala,python语言的开发基础,那么接下来我们就从具体的学习开始。

假设每天可以抽出3个小时的有效学习时间,加上周末每天保证10个小时的有效学习时间;

第一阶段(基础阶段)
  • 1)Linux学习(跟鸟哥学就ok了)

  • Linux操作系统介绍与安装。
    • Linux常用命令。
    • Linux常用软件安装。
    • Linux网络。
    • 防火墙。
    • Shell编程等。

官网:https://www.centos.org/download/

中文社区:http://www.linuxidc.com/Linux/2017-09/146919.htm

  • 2)Java 高级学习(《深入理解Java虚拟机》、《Java高并发实战》)

  • 掌握多线程。
    • 掌握并发包下的队列。
    • 了解JMS。
    • 掌握JVM技术。
    • 掌握反射和动态代理。

官网:https://www.java.com/zh_CN/

中文社区:http://www.java-cn.com/index.html

第二阶段(攻坚阶段)
  • 3)Hadoop (《Hadoop 权威指南》)

  • HDFS
    • HDFS的概念和特性。
    • HDFS的shell操作。
    • HDFS的工作机制。
    • HDFS的Java应用开发。
    • MapReduce
    • 运行WordCount示例程序。
    • 了解MapReduce内部的运行机制。
    • MapReduce程序运行流程解析。
    • MapTask并发数的决定机制。
    • MapReduce中的combiner组件应用。
    • MapReduce中的序列化框架及应用。
    • MapReduce中的排序。
    • MapReduce中的自定义分区实现。
    • MapReduce的shuffle机制。
    • MapReduce利用数据压缩进行优化。
    • MapReduce程序与YARN之间的关系。
    • MapReduce参数优化。
    • MapReduce的Java应用开发

官网:http://hadoop.apache.org/

中文文档:http://hadoop.apache.org/docs/r1.0.4/cn/

中文社区:http://www.aboutyun.com/forum-143-1.html

  • 4)Hive(《Hive开发指南》)

  • Hive 基本概念

    • Hive 应用场景。
    • Hive 与hadoop的关系。
    • Hive 与传统数据库对比。
    • Hive 的数据存储机制。
    • Hive 基本操作
  • Hive 中的DDL操作。
    • 在Hive 中如何实现高效的JOIN查询。
    • Hive 的内置函数应用。
    • Hive shell的高级使用方式。
    • Hive 常用参数配置。
    • Hive 自定义函数和Transform的使用技巧。
    • Hive UDF/UDAF开发实例。
    • Hive 执行过程分析及优化策略

官网:https://hive.apache.org/

中文入门文档:http://www.aboutyun.com/thread-11873-1-1.html

中文社区:http://www.aboutyun.com/thread-7598-1-1.html

  • 5)Zookeeper学习(可以参照这篇博客进行学习:http://www.cnblogs.com/wuxl360/p/5817471.html)

    • Zookeeper分布式协调服务介绍。
    • Zookeeper集群的安装部署。
    • Zookeeper数据结构、命令。
    • Zookeeper的原理以及选举机制。

官网:http://zookeeper.apache.org/

中文社区:http://www.aboutyun.com/forum-149-1.html

  • 6)HBase(《HBase权威指南》)

  • hbase简介。
    • habse安装。
    • hbase数据模型。
    • hbase命令。
    • hbase开发。
top Created with Sketch.