数据仓库的概念(三):数据模型设计事实表、维度表、星型模型、雪花模型
在上一篇数据仓库分层设计中,我们还提到了各个层除了原始表还进行了一些加工,在加工的时候还提到了事实表、维度表,本文带你粗略的理解一下事实表、维度表,数据模型中的星型模型、雪花模型。
事实表、维度表有的时候很模糊,造成了在数仓建设中一些不符合标准。
事实表(fact)
首先什么是事实呢?事实就是描述一个事物真实的发生了,一个用户把商品加入购物车这个事件在数据库中就是一条记录,这个就是在数据库汇总描述了一个事实。
事实,也分为三种,可加型事实,半可加型事实,不可加型事实。
- 可加型事实,指的是在所有维度加起来都有意义的度量。
- 半可加型事实,指的是在特定维度下加起来有意义,另一些维度下加起来无意义的度量。
- 不可加型事实,是指在所有维度下,加起来都没有意义的度量。
比如我们银行卡账单里的流水,无论是按时间求和还是按购物场所求和,怎么求和都有意义,是某个维度下的流水总数,这个就是可加型事实。
同样是我们的银行卡账单,如果你把余额都加起来,只有某个时间点把所有用户的余额都加起来才有意义,如果是按购物场所将用户余额求和,那么得出的数字什么意义也没有,这个就是半可加型事实。
同样是我们的银行卡账单,里面的卡号,无论你在什么维度下求和都没有意义,就是不可加型事实。
维度表(dimension)
什么是维度,维度是看待事实的角度。
同样是上面的银行卡账单数据,我们可以用时间角度来看,也可以从消费场所来看,也可以从消费渠道来看,这些就是他们的维度数据,比如消费渠道里可能有支付宝、微信、京东、线下POS、线下ATM,这些都是这个事实的维度。
星型模型和雪花模型
既然我们对数据进行了拆分,分为事实表和维度表,那么他们的模型结构怎么设计呢,这里就需要提一下星型模型和雪花模型。
星型模型
正如其名,这个结构像是一个星星,中间是事实表,周围围绕这各个维度表,通过外键相关联,在下方我画了一个示意图,星型虽然很快就可以取到我们需要的数据,但是其中会有很大的数据冗余,比如地区维度表,就需要存储 A省B市C区D街、A省B市E区F街,其中A省B市出现了冗余

雪花模型
雪花的样子大家应该都见过吧,从中间向四周发射,每个分支上又发射出多条线,雪花模型和雪花非常像,中间是事实表,周围围绕这各个维度表,维度表周围可能还有一圈维度表,在下方我画了一个示意图,也就是说当有一个或多个维表没有直接连接到事实表上,而是通过其他维表连接到事实表上,就是雪花模型。
雪花模型是对星型模型的扩展,它对星型模型的维表进一步层次化,原有的各维表可能被扩展为小的事实表,例如我下面的示意图,将地区维度表再分解为省、市、区县、街道维度,这样就降低了数据冗余程度,但想要拿到地区还需要关联多个维表,提高了复杂性。

总结
查询性能角度来看雪花型模型更有利于度量值的聚合,因此性能要高于星型模型。模型复杂度角度来看星型模型更简单方便处理。层次结构角度来看雪花模型更贴近真实系统,结构关系清晰。存储角度来看,雪花模型具有关系数据模型的所有优点,不会产生冗余数据,而相比之下星型模型会产生数据冗余。
到底用哪个没有标准答案,需要你在实际生产环境中去取舍,不过一般星型模型用的多,查询效率高,硬盘已经不贵了可以忍。
商业用途请联系作者获得授权。
版权声明:本文为博主「任霏」原创文章,遵循 CC BY-NC-SA 4.0 版权协议,转载请附上原文出处链接及本声明。
相关推荐
猜你还喜欢这些内容,不妨试试阅读一下评论与留言
以下内容均由网友提交发布,版权与真实性无法查证,请自行辨别。微信订阅号
扫码关注「任霏博客」微信订阅号- 你写得非常清晰明了,让我很容易理解你的观点。
- 感谢分享!拿走了~
- 您是说 UCClient 类接收来自Discuz的UCenter的消息吧,请求是来自 Discuz 的 UCenter吗?code 为 null 说明请求URL地址中没有 code 参数 (?code=xxx) ,确定是 UCenter 发起的请求吗?
- String code = request.getParameter("code"); code一直是null 这是为什么啊
- 你好,我想问一下如果是分析型的数据库要怎么制作docker镜像呢 是修改V008R003C002B0320版本号吗
- 可以的,我也正在开发分享的程序,可以邮件或群联系我都可以,关于页面里有联系方式:https://www.renfei.net/page/about 。
- 有破解软件的需要可以私下联系您吗?
- 您好,手机APP只是个客户端,用于数据呈现展示,数据均保存在服务器上,只留个APP没有任何用处,无能为力哦。
- 老哥 看你弄了这么多软件好厉害啊。 我有个软件 我买过几个小会员 没用几天 然后商家跑路了,软件服务器关闭了,连不上去 用不了。 你能做成一个打补丁版本可以本地用的么? 方便看下么?https://haodezhe.lanzouw.com/iD0f30h9joza 谢谢老哥!
- 您好,由于版权投诉和我国知识产权法的完善,我已经下架所有破解软件的下载链接了。
- 生花妙笔信手来 – 基于 Amazon SageMaker 使用 Grounded-SAM 加速电商广告素材生成 [1]
- github.renfei.net 不再完整代理 Github 页面改为代理指定文件
- 优雅的源代码管理(三):本地优雅的使用 Git Rebase 变基
- 优雅的源代码管理(二):Git 的工作原理
- 优雅的源代码管理(一):版本控制系统 VCS(Version Control System)与软件配置管理 SCM(Software Configuration Management)
- ChatGPT 开发商 OpenAI 买下极品域名 AI.com
- 火爆的 AI 人工智能 ChatGPT 国内注册教程、使用方式和收费标准
- 解决 SpringCloud 中 bootstrap.yml 不识别 @activatedProperties@ 参数
- Cron表达式书写教程搞定Linux、Spring、Quartz的定时任务
- 阿里云香港可用区C发生史诗级故障