10467f62cfbbaca6b7b4a5b8c36b3041
大数据生态圈和机器学习专栏开篇

专栏开篇

专栏处女贴来了~~~

本专栏面向大数据、机器学习爱好者,无论是在校的、刚进入社会的、还是老司机,希望通过阅读本专栏都能有收获。

专栏主要分大数据生态圈和机器学习两条主线

一、大数据生态圈

1. 大数据技术组件

  • 数据采集组件:DataX,sqoop,logstash,flume等
  • 数据计算组件:Spark Core,Spark Sql,Spark Streaming,Mapreduce,Hive Sql,Phoenix Sql,Storm
  • 数据调度组件:Azkaban,oozie等
  • 数据存储及中间件组件:Hbase,Hive,Redis,kafka等
  • 集群搭建组件:CDH,Ambari等
  • 数据挖掘相关组件:Spark Mlib,Spark Ml,Mahout等
  • 集群相关日志及任务监控:Elastic Search,logstash,kabana,也就是ELK监控等 ### 2. 大数据常用架构
  • 日志埋点采集架构
  • 数据实时计算架构
  • 离线数据同步及离线计算任务的架构及调度

二、机器学习相关

1.机器学习

  • 数据分析:探索分析、统计推断、数据可视化等
  • 机器学习: 包含模型、算法、策略相关内容; 结合案列白话介绍各类算法原理包括LR、SVM、RF、GBDT、ADABOOST、XGBOOST,以及深度学习里常见的CNN、RNN、LSTM网络模型; 模型策略包括模型选择评估等,介绍模型各类指标背后逻辑包括ROC、AUC、KS、P-R曲线、拟合图等; 如何开展模型融合; ### 2.深度学习
  • 结合案列重点介绍深度学习主流的网络模型和原理,包括CNN、RNN、LSTM、word2vec等
  • 主要涉及工具(大数据生态圈部分介绍的工具这里不做额外说明):mysql、R、python、tensorflow、tableau等。

即将推出的系列文章

一个真实的在线授信产品风控项目,分三篇完整的介绍业务背景以及涉及的技术:
1、项目总体介绍
2、项目大数据架构
3、风控模型介绍

之后每周会计划更新一篇到两篇,更新时间会放在周一早上或者周五早上,与大家共同进步~

大家有任何想法或意见都可以发如下邮箱和我们沟通,我们会挑选部分回复,邮箱如下:
13685858411@139.com
15988101848@139.com


谢谢大家阅读,欢迎指正

© 著作权归作者所有
这个作品真棒,我要支持一下!
机器学习、深度学习、大数据、数据科学爱好者集结地,分享 在各自领域里的工程实践经验和应用 让我们每天进步一点点...
2条评论

非常期待这个专栏哟!

专栏的机器学习相关文章的作者有多年的机器学习项目经验,欢迎大家关注学习

top Created with Sketch.