B410ddfc4daae561e627b9d2e6f60304
一文读懂数据仓库

接下来一系列文章都会围绕数据仓库展开,主要包含:数据仓库,离线数仓,实时数仓,数仓建模,数仓分层,数据库,数据集市,数据湖,OLAP,OLTP,数据中台, 数仓实战......

数据仓库:

英文名称为Data Warehouse,可简写为DW或DWH,按照传统的定义,数据仓库是一个面向主题的、集成的、非易失的、反映历史变化(随时间变化),用来支持管理人员决策的数据集合。

数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。

数据仓库是信息(对其进行分析可做出更明智的决策)的中央存储库。通常,数据定期从事务系统、关系数据库和其他来源流入数据仓库。业务分析师、数据工程师、数据科学家和决策者通过商业智能 (BI) 工具、SQL 客户端和其他分析应用程序访问数据。

数据仓库的特点

  • 主题性:数据仓库是针对某个主题来进行组织,比如滴滴出行,司机行为分析就是一个主题,所以可以将多种不同的数据源进行整合。而传统的数据库主要针对某个项目而言,数据相对分散和孤立。
  • 集成性:数据仓库需要将多个数据源的数据存到一起,但是这些数据以前的存储方式不同,所以需要经过抽取、清洗、转换的过程
  • 稳定性:保存的数据是一系列历史快照,不允许修改,只能分析。
  • 时变性:会定期接收到新的数据,反应出最新的数据变化。

总结:数据仓库是将多个数据源的数据按照一定的主题集成起来,因为之前的数据各不相同,所以需要抽取、清洗、转换。

数据仓库一般在整合以后的数据不允许随便修改,只能分析,还需要定期更新。

为什么会有数据仓库

首先,企业数据分散在多种互不兼容的的结构和系统中,导致数据很难被整合成需要的决策信息;
其次,战略决策所需的数据格式必须适合趋势分析,但操作型数据是由事件驱动的,不能直接反映趋势的变化;
再次,对于战略决策来说,决策者必须从不同的商业角度观察数据,比如说产品、地区、客户群等不同方面观察数据,操作型数据不适合从不同的角度进行分析。

无数仓或者数仓建设得不好常见的问题:
  1. 数据资产模糊
    • 不知道有什么数据、该找谁要数据
    • 数据如何生成和更新的
    • 数据存储和计算资源评估缺乏必要的信息
  2. 数据质量低
    • 字段命名不规范、口径不一致
    • 条件的过滤和规则等的理解差异带来的算法不一致
  3. 重复建设
    • 无中间表或中间表建设的差,每次从原始数据取,数据开发周期长
    • 代码臃肿
    • 最底层取数据,带来存储和计算资源的浪费,同时滋生数据口径不一致问题
  4. 底层轻微的改变对上层影响巨大
    • 业务数据轻微改动
    • 底层逻辑轻微改动
    • 底层数据异常
  5. 问题定位难,周期长
top Created with Sketch.