2021-02-04 11:01:07

数据仓库的概念(三):数据模型设计事实表、维度表、星型模型、雪花模型


数据仓库的概念(三):数据模型设计事实表、维度表、星型模型、雪花模型

在上一篇数据仓库分层设计中,我们还提到了各个层除了原始表还进行了一些加工,在加工的时候还提到了事实表、维度表,本文带你粗略的理解一下事实表、维度表,数据模型中的星型模型、雪花模型。

事实表、维度表有的时候很模糊,造成了在数仓建设中一些不符合标准。

事实表(fact)

首先什么是事实呢?事实就是描述一个事物真实的发生了,一个用户把商品加入购物车这个事件在数据库中就是一条记录,这个就是在数据库汇总描述了一个事实。

事实,也分为三种,可加型事实,半可加型事实,不可加型事实。

  • 可加型事实,指的是在所有维度加起来都有意义的度量。
  • 半可加型事实,指的是在特定维度下加起来有意义,另一些维度下加起来无意义的度量。
  • 不可加型事实,是指在所有维度下,加起来都没有意义的度量。

比如我们银行卡账单里的流水,无论是按时间求和还是按购物场所求和,怎么求和都有意义,是某个维度下的流水总数,这个就是可加型事实。

同样是我们的银行卡账单,如果你把余额都加起来,只有某个时间点把所有用户的余额都加起来才有意义,如果是按购物场所将用户余额求和,那么得出的数字什么意义也没有,这个就是半可加型事实。

同样是我们的银行卡账单,里面的卡号,无论你在什么维度下求和都没有意义,就是不可加型事实。

维度表(dimension)

什么是维度,维度是看待事实的角度。

同样是上面的银行卡账单数据,我们可以用时间角度来看,也可以从消费场所来看,也可以从消费渠道来看,这些就是他们的维度数据,比如消费渠道里可能有支付宝、微信、京东、线下POS、线下ATM,这些都是这个事实的维度。

星型模型和雪花模型

既然我们对数据进行了拆分,分为事实表和维度表,那么他们的模型结构怎么设计呢,这里就需要提一下星型模型和雪花模型。

星型模型

正如其名,这个结构像是一个星星,中间是事实表,周围围绕这各个维度表,通过外键相关联,在下方我画了一个示意图,星型虽然很快就可以取到我们需要的数据,但是其中会有很大的数据冗余,比如地区维度表,就需要存储 A省B市C区D街、A省B市E区F街,其中A省B市出现了冗余

星型模型

雪花模型

雪花的样子大家应该都见过吧,从中间向四周发射,每个分支上又发射出多条线,雪花模型和雪花非常像,中间是事实表,周围围绕这各个维度表,维度表周围可能还有一圈维度表,在下方我画了一个示意图,也就是说当有一个或多个维表没有直接连接到事实表上,而是通过其他维表连接到事实表上,就是雪花模型。

雪花模型是对星型模型的扩展,它对星型模型的维表进一步层次化,原有的各维表可能被扩展为小的事实表,例如我下面的示意图,将地区维度表再分解为省、市、区县、街道维度,这样就降低了数据冗余程度,但想要拿到地区还需要关联多个维表,提高了复杂性。

雪花模型

总结

查询性能角度来看雪花型模型更有利于度量值的聚合,因此性能要高于星型模型。模型复杂度角度来看星型模型更简单方便处理。层次结构角度来看雪花模型更贴近真实系统,结构关系清晰。存储角度来看,雪花模型具有关系数据模型的所有优点,不会产生冗余数据,而相比之下星型模型会产生数据冗余。

到底用哪个没有标准答案,需要你在实际生产环境中去取舍,不过一般星型模型用的多,查询效率高,硬盘已经不贵了可以忍。


商业用途请联系作者获得授权。
版权声明:本文为博主「任霏」原创文章,遵循 CC BY-NC-SA 4.0 版权协议,转载请附上原文出处链接及本声明。
原文链接:https://www.renfei.net/posts/1003447
评论与留言
以下内容均由网友提交发布,版权与真实性无法查证,请自行辨别。

本站有缓存策略,时间约2小时后能看到您的评论。本站使用自动审核机制,如果您的内容包含广告/谩骂/恐怖/暴力/涉政等不和谐内容将无法展示!


本站有缓存策略,时间约2小时后能看到您的评论。本站使用自动审核机制,如果您的内容包含广告/谩骂/恐怖/暴力/涉政等不和谐内容将无法展示!

关注任霏博客
扫码关注「任霏博客」微信订阅号
微博:任霏博客网
Twitter:@renfeii
Facebook:任霏
最新留言 不更新? 优先级低的并不代表一定要等到优先级高的运行完才能运行,只是cpu分配的资源少了而已。 /lib64/ld-linux-x86-64.so.2: No such file or directory 报了这个错误,怎么解决呢 对于一个布道 DevOps 多年的选手来讲,看到这个报告,还是想继续布道布道。虽然是各种对比哈,但是我感觉与 DevOps 太像了(可能是职业病犯了哈)。首先声明本人不是GitLab 用户(因为不免费,没法薅羊毛啊),本人是 GitHub 忠实用户。 首先,你这是田忌赛马的对比,中文对比一事,着实有点可笑 1 土生土长和外来户能立马拉到同一个起跑线上吗? 2 一个真正的开发者应该去提升自己的英语能力,而不是拿全部是中文文档说事。大家都知道现在开源非常热,开发者是开源的主力军,如果要贡献优秀的开源项目(诸如Linux 内核,Kubernetes),英语就是个硬门槛。如果我是你,我倒希望公司内部的系统是英文的,最起码能让我锻炼英语,在看开源项目文档的时候不至于看不懂,提 PR 的时候不至于提交代码的内容描述不清楚而没法被 Merge。 其次,阿里云效、Coding 大家都知道背后站的是谁,很容易造成厂商绑定,现在很多企业都希望不要被厂商绑定。 再者,有一个点需要明白,GitLab 是一个 DevOps 平台,什么叫做 DevOps 平台(DevOps 走到现在,确切的说应该叫做 DevSecOps)?就是覆盖了软件开发生命周期全阶段的,从项目管理到代码托管到安全再到日志监控、甚至包含现在的云原生能力。不仅仅是说一个 CI/CD 就能概括的了的。这一点是 DevOps 布道的真正误区,我见过太多了,我在这儿再布道一哈,CI/CD 不等于 DevOps,他只是 DevOps 落地实践的核心能力。仅凭借一个 CI/CD 能有现成模版就判断出哪个好坏,过于牵强了吧。相信大家真正到项目用的时候,模版是满足不了要求的吧,毕竟大家都很特性化。 最后,还是一个很热的话题,开源,open source。GitLab 是开源的,Coding 和 云效这方面我没看到相关的开源内容(可能是我孤陋寡闻)。大家可以看看国内有多少用 GitLb 的,GitLab 的 CE 版,然后私有化部署,就是很多公司的代码托管 + DevOps 解决方案。 个人愚见,做一些对比报告的时候,还是先需要明白这个产品的定位,去深入挖掘一些真正有意义的对比,这样的对比报告才能有意义。作为一个常年写博客、文章的人来说。你写的每个字、每篇文章,你要想到你的思想会影响到别人。有可能因为你的片面之词,让别人错失一些学习的好机会。 docker run 那一长串后,出来一个字符串,然后去 docker containers 下面看 显示 exited(1);logs 下就一行错误 initdb failed 感谢🙏,第一个问题是空格的问题应该,我逐字敲完后可以构建了.第二个问题是我docker环境的问题,docker更新为最新版后需要重置配置文件.现已经正常使用,再次感谢您的分享和您的细心解答,期待下次相遇😄 还有一个问题可以请教下吗?就是我在容器里建文件夹没有权限,su root后密码不知道是多少,sudo mkdir xxx 提示我,没有sudo命令,请问有好的解决方法吗?谢谢解答 -v 后面可以指定文件吗 我的也是报错,还有。我执行了这个:@localhost kingbase-es-v8-r3-docker % docker run -d --name kingbase -p 54321:54321 -e SYSTEM_PWD=SYSTEM -v /opt/kingbase/data:/opt/kingbase/data -v /opt/kingbase:/opt/kingbase/Server/bin kingbase:v8r3 docker: 'run -d --name kingbase -p 54321:54321 -e SYSTEM_PWD=SYSTEM -v /opt/kingbase/data:/opt/kingbase/data -v /opt/kingbase:/opt/kingbase/Server/bin kingbase:v8r3' is not a docker command. See 'docker --help' 麻烦帮忙看下,是不是我写的命令有问题,还是版本问题,谢谢啦 请问我build的时候一直报错,是资源没了吗?failed to solve with frontend dockerfile.v0: failed to create LLB definition: failed to do request: Head "https://reg-mirror.qiniu.com/v2/library/centos/manifests/7?ns=docker.io": Moved Permanently 能不能在代码那里详细解释一下啊,没完全懂呀 en