2021-02-03 10:43:43

数据仓库的概念(二):数据仓库的分层设计


数据仓库的概念(二):数据仓库的分层设计

上一篇我们了解了数据仓库的作用,随着数据随时间流入我们的数据仓库以后,数据的种类和数量将越来越庞大,如果不加以治理和设计,我们查询取用数据时将遇到很大的问题,所以就需要对数据仓库进行设计,让数据分门别类的放到自己应该去的地方,方便我们日后随时调用查取。

任霏注:本文中讲到的数仓分层设计大多源自国内阿里巴巴的《大数据之路》,国外英文文献中搜索不到 DWD/DWS 等描述,而且这个分层设计只是推荐并没有标准答案,有可能并不适合你的行业数据结构,这个思想会有利于构建自己行业的数据结构和模型。

为什么要分层

如果我们不对原始数据进行治理,当数据达到海量的时候,你会发现当你想要一个分析图表的时候,数据查询会非常吃力,可能要关联几百个表,扫描全部几TB的数据,所以我们可以用空间换时间:通过建设多层次的数据模型供用户使用,避免用户直接使用操作原始数据,可以更高效的访问数据。同时可以将复杂的问题分解成单个简单的步奏来完成,比较简单和容易理解。

数仓分层

注意数仓分层并没有标准答案,我这里讲述的是阿里巴巴的解决方案,大部分将数仓分为四层,虽然名称和缩写可能不太一样,请领会里面的思想,不要纠结分层必须是哪些层。

根据阿里的大数据计算服务(MaxCompute,原名ODPS)以及阿里巴巴的《大数据之路》中给出的解决方案,数仓将分为四层:数据层( Operational Data Store, ODS)、明细数据层( Data Warehouse Detail , DWD )、汇总数据层( Data Warehouse Summary, DWS )和 应用数据层(ApplicationDataStore, ADS)。这里引用阿里云对MaxCompute的描述:

阿里云对MaxCompute的描述

数据层( Operational Data Store, ODS)

ODS 有时候我们也叫它贴源层,因为这里存放的是最原始的数据,我们什么也不改变,就保留原始数据的内容,结构上与源系统保持一致,是数据仓库的数据准备区。

我们从原始系统抽取来的数据就存放在这里,从这里进入我们的大数据平台,在这个区域我们只做查询操作,不要进行修改和删除任何数据!

明细数据层( Data Warehouse Detail , DWD )

DWD 这层和 ODS 层保持一样的数据结构,只不过在从 ODS 里抽取到 DWD 的时候这个过程叫 ETL,后面我们会再讲 ETL,在抽取时对数据进行清洗加工,提供一定的数据质量保证,提供更干净的数据。

同时会进行维度退化,当一个维度没有数据仓库需要的任何数据时,就可以退化维度,将维度退化至事实表中,减少事实表和维表的关联。后面我们再讲维度表和事实表,这里只讲数据仓库分层。

汇总数据层( Data Warehouse Summary, DWS )

这层主要进行轻度汇总,也称为宽表层,有的地方叫数据服务层( Data Warehouse Service, DWS ),不用纠结叫法和缩写翻译,请领会治理思想。

这里表的数量将大幅度下降,大多按照主题进行划分,例如订单、用户等,但这些表的字段比较多,所以也叫宽表,由于上一层 DWD 进行了维度退化,这里的数据可能出现冗余,例如订单ID可能存在于多个事实表中,这是正常的,用于提供后续的业务查询。

然后补充上阿里对这层的描述,读着有点拗口:

以分析的主题对象作为建模驱动,基于上层的应用和产品的指标需求,构建公共粒度的汇总指标事实表,以宽表化手段物理化模型。构建命名规范、口径一致的统计指标,为上层提供公共指标,建立汇总宽表、明细事实表。

应用数据层(ApplicationDataStore, ADS)

这层有的叫做数据集市层( Data Mart, DM),顾名思义,这里的数据就是给顶层的应用程序消费使用,例如整合汇总成分析某一个主题域的报表数据为各种统计报表提供数据。


商业用途请联系作者获得授权。
版权声明:本文为博主「任霏」原创文章,遵循 CC BY-NC-SA 4.0 版权协议,转载请附上原文出处链接及本声明。
原文链接:https://www.renfei.net/posts/1003446
评论与留言
以下内容均由网友提交发布,版权与真实性无法查证,请自行辨别。

本站有缓存策略,时间约2小时后能看到您的评论。本站使用自动审核机制,如果您的内容包含广告/谩骂/恐怖/暴力/涉政等不和谐内容将无法展示!


本站有缓存策略,时间约2小时后能看到您的评论。本站使用自动审核机制,如果您的内容包含广告/谩骂/恐怖/暴力/涉政等不和谐内容将无法展示!

关注任霏博客
扫码关注「任霏博客」微信订阅号
微博:任霏博客网
Twitter:@renfeii
Facebook:任霏
最新留言 这个恶意攻击是只有服务器安装有Redis 才会遭受攻击吗 我用电脑和手机分别访问了45,133,203,192 这个ip地址,这个ip地址对应的服务器是不是只托管了脚本,提供木马自动去下载,并没有任何攻击性的东西,是这样的吗? 你好,我这边想问下,镜像服务启动了,该连接哪个数据库呢? 不更新? 优先级低的并不代表一定要等到优先级高的运行完才能运行,只是cpu分配的资源少了而已。 /lib64/ld-linux-x86-64.so.2: No such file or directory 报了这个错误,怎么解决呢 对于一个布道 DevOps 多年的选手来讲,看到这个报告,还是想继续布道布道。虽然是各种对比哈,但是我感觉与 DevOps 太像了(可能是职业病犯了哈)。首先声明本人不是GitLab 用户(因为不免费,没法薅羊毛啊),本人是 GitHub 忠实用户。 首先,你这是田忌赛马的对比,中文对比一事,着实有点可笑 1 土生土长和外来户能立马拉到同一个起跑线上吗? 2 一个真正的开发者应该去提升自己的英语能力,而不是拿全部是中文文档说事。大家都知道现在开源非常热,开发者是开源的主力军,如果要贡献优秀的开源项目(诸如Linux 内核,Kubernetes),英语就是个硬门槛。如果我是你,我倒希望公司内部的系统是英文的,最起码能让我锻炼英语,在看开源项目文档的时候不至于看不懂,提 PR 的时候不至于提交代码的内容描述不清楚而没法被 Merge。 其次,阿里云效、Coding 大家都知道背后站的是谁,很容易造成厂商绑定,现在很多企业都希望不要被厂商绑定。 再者,有一个点需要明白,GitLab 是一个 DevOps 平台,什么叫做 DevOps 平台(DevOps 走到现在,确切的说应该叫做 DevSecOps)?就是覆盖了软件开发生命周期全阶段的,从项目管理到代码托管到安全再到日志监控、甚至包含现在的云原生能力。不仅仅是说一个 CI/CD 就能概括的了的。这一点是 DevOps 布道的真正误区,我见过太多了,我在这儿再布道一哈,CI/CD 不等于 DevOps,他只是 DevOps 落地实践的核心能力。仅凭借一个 CI/CD 能有现成模版就判断出哪个好坏,过于牵强了吧。相信大家真正到项目用的时候,模版是满足不了要求的吧,毕竟大家都很特性化。 最后,还是一个很热的话题,开源,open source。GitLab 是开源的,Coding 和 云效这方面我没看到相关的开源内容(可能是我孤陋寡闻)。大家可以看看国内有多少用 GitLb 的,GitLab 的 CE 版,然后私有化部署,就是很多公司的代码托管 + DevOps 解决方案。 个人愚见,做一些对比报告的时候,还是先需要明白这个产品的定位,去深入挖掘一些真正有意义的对比,这样的对比报告才能有意义。作为一个常年写博客、文章的人来说。你写的每个字、每篇文章,你要想到你的思想会影响到别人。有可能因为你的片面之词,让别人错失一些学习的好机会。 docker run 那一长串后,出来一个字符串,然后去 docker containers 下面看 显示 exited(1);logs 下就一行错误 initdb failed 感谢🙏,第一个问题是空格的问题应该,我逐字敲完后可以构建了.第二个问题是我docker环境的问题,docker更新为最新版后需要重置配置文件.现已经正常使用,再次感谢您的分享和您的细心解答,期待下次相遇😄 还有一个问题可以请教下吗?就是我在容器里建文件夹没有权限,su root后密码不知道是多少,sudo mkdir xxx 提示我,没有sudo命令,请问有好的解决方法吗?谢谢解答 -v 后面可以指定文件吗 我的也是报错,还有。我执行了这个:@localhost kingbase-es-v8-r3-docker % docker run -d --name kingbase -p 54321:54321 -e SYSTEM_PWD=SYSTEM -v /opt/kingbase/data:/opt/kingbase/data -v /opt/kingbase:/opt/kingbase/Server/bin kingbase:v8r3 docker: 'run -d --name kingbase -p 54321:54321 -e SYSTEM_PWD=SYSTEM -v /opt/kingbase/data:/opt/kingbase/data -v /opt/kingbase:/opt/kingbase/Server/bin kingbase:v8r3' is not a docker command. See 'docker --help' 麻烦帮忙看下,是不是我写的命令有问题,还是版本问题,谢谢啦