下午好,准备准备要上班了!

大数据

数据仓库的概念(四):全量表、增量表、拉链表、流水表、快照表

2021年02月05日 10:47:52 · 本文共 1,054 字阅读时间约 3分钟 · 8,883 次浏览
数据仓库的概念(四):全量表、增量表、拉链表、流水表、快照表

上一篇文章我们了解了事实表、维度表和星型模型、雪花模型,除了这些在行业中还有一些专业名词需要了解,本篇文章将带你了解大数据行业“黑话”全量表、增量表、拉链表、流水表、快照表都是什么。可能下面的一些内容理解不了,等到搞 hive 的时候就知道了,先了解一下基本的知识。

全量表

跟它的名字一样好理解,就是全部数据,不管是旧的还是新的全都要,不分区,所有数据都储存在一个分区中,记录的是总量。

增量表

增量也非常好理解,截止到上次导出以后新增的数据就是增量了,只报变化的数据,没有变化的数据不用报,每天一个分区,记录的是增加的量。

快照表

根据它的名字,感觉是给数据照相,其实就是获取某个时间段内全部数据,咔嚓一声照个相,快门打开的这一段时间,也就是这个时间段内所有的数据被保存下来就是快照,每次上报的都是一个时间段内全部数据,每天一个分区。

拉链表

上面的表都比较常见,但这个拉链表可能有的同学就没见过了,重点说一下这个没见过的。

拉链表通常是对信息的历史变动进行处理保留的结果,也就说它是为了保持历史的一些状态,这样做目的在可以保留所有状态的情况下可以节省空间。

比如数据量很大,其中有些字段会变化,但是变化的频率比较低,可能好几个月好几年才变化一次,业务需要统计这种变化状态,每天做个全量在数据量大的情况下是不现实的,可能很快磁盘容量就不够了,这个时候就用到拉链表了。

比较有特点的是购物订单的状态变化,状态可能是下单、支付、发货、完成,甚至还有退货等分支状态,需求是可以查看订单在历史某一时间点的状态,咱们就先按正常的下单、支付、发货、完成的流程来演示拉链表:

  • start_date:表示该条记录生命周期开始时间
  • end_date:表示该条记录的生命周期结束时间
  • end_date = '9999-12-31 23:59:59’表示该条记录目前处于有效状态,也叫封链时间

下面是一张拉链表,存储的是订单基本信息和每条记录的生命周期。我们可以使用这种表拿到最新的当天的最新数据和之前的历史某一时间点的数据。

订单编号用户名状态start_dateend_date
12345678任霏完成2021-01-07 18:24:559999-12-31 23:59:59
25478512张三支付2021-01-03 15:45:369999-12-31 23:59:59
12345678任霏发货2021-01-04 10:32:152021-01-07 18:24:54
12345678任霏支付2021-01-03 15:45:242021-01-04 10:32:14
25478512张三下单2021-01-03 15:40:212021-01-03 15:45:36
12345678任霏下单2021-01-03 15:40:202021-01-03 15:45:23

如果查询当前订单’12345678‘的状态,则 select * from order where end_date = '9999-12-31 23:59:59' and 订单编号 = '12345678',我们就能拿到状态是“完成”状态

如果查询订单’12345678‘在 2021-01-04 08:32:14 这个时间点的状态,则select * from order where start_date<='2021-01-04 08:32:14' and end_date>='2021-01-04 08:32:14' and 订单编号 = '12345678',我们就能拿到状态是“支付”状态

流水表

正如它的名字,流水记录,每次数据变更都会形成一条记录,可以用于反映实际记录的变更历史。流水表与拉链表也有些类似,不同的是拉链表可以根据拉链粒度存储数据,也就是只存储特定维度的数据变化记录;而流水表存储的是每一个修改记录。

商业用途请联系作者获得授权。
版权声明:本文为博主「任霏」原创文章,遵循 CC BY-NC-SA 4.0 版权协议,转载请附上原文出处链接及本声明。
原文链接:https://www.renfei.net/posts/1003449
评论与留言

以下内容均由网友提交发布,版权与真实性无法查证,请自行辨别。

微信搜一搜:任霏博客