教程应用环境领域:windows7系统、Dell G3电脑。
数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建。 为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。
数据仓库的基本功能
ETL设计:数据的抽取同步、数据清洗、数据转换。涉及关系型数据库(mysql、mariadb、oracle等),文档型数据库(mongodb、elasticsearch等)。
数据分层:一般划分为ODS层、CM层、ML层。ODS层表示未进行加工的数据。CM层表示清洗合并层的数据。
数据初步建模:对应数据分层ML层,一般采用关系模型(雪花模型)或星型模型,形成宽表对外提供数据支持。
涉及技术:HDFS、HIVE、HBASE、MR、SPARK、YARN等。
数据仓库架构
下图为工作中参考很多公司的数据架构规划出的数据架构,仅供参考。
我来说两句