数据仓库的概念(四):全量表、增量表、拉链表、流水表、快照表
上一篇文章我们了解了事实表、维度表和星型模型、雪花模型,除了这些在行业中还有一些专业名词需要了解,本篇文章将带你了解大数据行业“黑话”全量表、增量表、拉链表、流水表、快照表都是什么。可能下面的一些内容理解不了,等到搞 hive 的时候就知道了,先了解一下基本的知识。
全量表
跟它的名字一样好理解,就是全部数据,不管是旧的还是新的全都要,不分区,所有数据都储存在一个分区中,记录的是总量。
增量表
增量也非常好理解,截止到上次导出以后新增的数据就是增量了,只报变化的数据,没有变化的数据不用报,每天一个分区,记录的是增加的量。
快照表
根据它的名字,感觉是给数据照相,其实就是获取某个时间段内全部数据,咔嚓一声照个相,快门打开的这一段时间,也就是这个时间段内所有的数据被保存下来就是快照,每次上报的都是一个时间段内全部数据,每天一个分区。
拉链表
上面的表都比较常见,但这个拉链表可能有的同学就没见过了,重点说一下这个没见过的。
拉链表通常是对信息的历史变动进行处理保留的结果,也就说它是为了保持历史的一些状态,这样做目的在可以保留所有状态的情况下可以节省空间。
比如数据量很大,其中有些字段会变化,但是变化的频率比较低,可能好几个月好几年才变化一次,业务需要统计这种变化状态,每天做个全量在数据量大的情况下是不现实的,可能很快磁盘容量就不够了,这个时候就用到拉链表了。
比较有特点的是购物订单的状态变化,状态可能是下单、支付、发货、完成,甚至还有退货等分支状态,需求是可以查看订单在历史某一时间点的状态,咱们就先按正常的下单、支付、发货、完成的流程来演示拉链表:
- start_date:表示该条记录生命周期开始时间
- end_date:表示该条记录的生命周期结束时间
- end_date = '9999-12-31 23:59:59’表示该条记录目前处于有效状态,也叫封链时间
下面是一张拉链表,存储的是订单基本信息和每条记录的生命周期。我们可以使用这种表拿到最新的当天的最新数据和之前的历史某一时间点的数据。
订单编号 | 用户名 | 状态 | start_date | end_date |
12345678 | 任霏 | 完成 | 2021-01-07 18:24:55 | 9999-12-31 23:59:59 |
25478512 | 张三 | 支付 | 2021-01-03 15:45:36 | 9999-12-31 23:59:59 |
12345678 | 任霏 | 发货 | 2021-01-04 10:32:15 | 2021-01-07 18:24:54 |
12345678 | 任霏 | 支付 | 2021-01-03 15:45:24 | 2021-01-04 10:32:14 |
25478512 | 张三 | 下单 | 2021-01-03 15:40:21 | 2021-01-03 15:45:36 |
12345678 | 任霏 | 下单 | 2021-01-03 15:40:20 | 2021-01-03 15:45:23 |
如果查询当前订单’12345678‘的状态,则 select * from order where end_date = '9999-12-31 23:59:59' and 订单编号 = '12345678',我们就能拿到状态是“完成”状态
如果查询订单’12345678‘在 2021-01-04 08:32:14 这个时间点的状态,则select * from order where start_date<='2021-01-04 08:32:14' and end_date>='2021-01-04 08:32:14' and 订单编号 = '12345678',我们就能拿到状态是“支付”状态
流水表
正如它的名字,流水记录,每次数据变更都会形成一条记录,可以用于反映实际记录的变更历史。流水表与拉链表也有些类似,不同的是拉链表可以根据拉链粒度存储数据,也就是只存储特定维度的数据变化记录;而流水表存储的是每一个修改记录。
商业用途请联系作者获得授权。
版权声明:本文为博主「任霏」原创文章,遵循 CC BY-NC-SA 4.0 版权协议,转载请附上原文出处链接及本声明。
相关推荐
猜你还喜欢这些内容,不妨试试阅读一下评论与留言
以下内容均由网友提交发布,版权与真实性无法查证,请自行辨别。微信订阅号
扫码关注「任霏博客」微信订阅号- 你写得非常清晰明了,让我很容易理解你的观点。
- 感谢分享!拿走了~
- 您是说 UCClient 类接收来自Discuz的UCenter的消息吧,请求是来自 Discuz 的 UCenter吗?code 为 null 说明请求URL地址中没有 code 参数 (?code=xxx) ,确定是 UCenter 发起的请求吗?
- String code = request.getParameter("code"); code一直是null 这是为什么啊
- 你好,我想问一下如果是分析型的数据库要怎么制作docker镜像呢 是修改V008R003C002B0320版本号吗
- 可以的,我也正在开发分享的程序,可以邮件或群联系我都可以,关于页面里有联系方式:https://www.renfei.net/page/about 。
- 有破解软件的需要可以私下联系您吗?
- 您好,手机APP只是个客户端,用于数据呈现展示,数据均保存在服务器上,只留个APP没有任何用处,无能为力哦。
- 老哥 看你弄了这么多软件好厉害啊。 我有个软件 我买过几个小会员 没用几天 然后商家跑路了,软件服务器关闭了,连不上去 用不了。 你能做成一个打补丁版本可以本地用的么? 方便看下么?https://haodezhe.lanzouw.com/iD0f30h9joza 谢谢老哥!
- 您好,由于版权投诉和我国知识产权法的完善,我已经下架所有破解软件的下载链接了。
- 生花妙笔信手来 – 基于 Amazon SageMaker 使用 Grounded-SAM 加速电商广告素材生成 [1]
- github.renfei.net 不再完整代理 Github 页面改为代理指定文件
- 优雅的源代码管理(三):本地优雅的使用 Git Rebase 变基
- 优雅的源代码管理(二):Git 的工作原理
- 优雅的源代码管理(一):版本控制系统 VCS(Version Control System)与软件配置管理 SCM(Software Configuration Management)
- ChatGPT 开发商 OpenAI 买下极品域名 AI.com
- 火爆的 AI 人工智能 ChatGPT 国内注册教程、使用方式和收费标准
- 解决 SpringCloud 中 bootstrap.yml 不识别 @activatedProperties@ 参数
- Cron表达式书写教程搞定Linux、Spring、Quartz的定时任务
- 阿里云香港可用区C发生史诗级故障