上一篇文章我们了解了事实表、维度表和星型模型、雪花模型,除了这些在行业中还有一些专业名词需要了解,本篇文章将带你了解大数据行业“黑话”全量表、增量表、拉链表、流水表、快照表都是什么。可能下面的一些内容理解不了,等到搞 hive 的时候就知道了,先了解一下基本的知识。
跟它的名字一样好理解,就是全部数据,不管是旧的还是新的全都要,不分区,所有数据都储存在一个分区中,记录的是总量。
增量也非常好理解,截止到上次导出以后新增的数据就是增量了,只报变化的数据,没有变化的数据不用报,每天一个分区,记录的是增加的量。
根据它的名字,感觉是给数据照相,其实就是获取某个时间段内全部数据,咔嚓一声照个相,快门打开的这一段时间,也就是这个时间段内所有的数据被保存下来就是快照,每次上报的都是一个时间段内全部数据,每天一个分区。
上面的表都比较常见,但这个拉链表可能有的同学就没见过了,重点说一下这个没见过的。
拉链表通常是对信息的历史变动进行处理保留的结果,也就说它是为了保持历史的一些状态,这样做目的在可以保留所有状态的情况下可以节省空间。
比如数据量很大,其中有些字段会变化,但是变化的频率比较低,可能好几个月好几年才变化一次,业务需要统计这种变化状态,每天做个全量在数据量大的情况下是不现实的,可能很快磁盘容量就不够了,这个时候就用到拉链表了。
比较有特点的是购物订单的状态变化,状态可能是下单、支付、发货、完成,甚至还有退货等分支状态,需求是可以查看订单在历史某一时间点的状态,咱们就先按正常的下单、支付、发货、完成的流程来演示拉链表:
下面是一张拉链表,存储的是订单基本信息和每条记录的生命周期。我们可以使用这种表拿到最新的当天的最新数据和之前的历史某一时间点的数据。
订单编号 | 用户名 | 状态 | start_date | end_date |
12345678 | 任霏 | 完成 | 2021-01-07 18:24:55 | 9999-12-31 23:59:59 |
25478512 | 张三 | 支付 | 2021-01-03 15:45:36 | 9999-12-31 23:59:59 |
12345678 | 任霏 | 发货 | 2021-01-04 10:32:15 | 2021-01-07 18:24:54 |
12345678 | 任霏 | 支付 | 2021-01-03 15:45:24 | 2021-01-04 10:32:14 |
25478512 | 张三 | 下单 | 2021-01-03 15:40:21 | 2021-01-03 15:45:36 |
12345678 | 任霏 | 下单 | 2021-01-03 15:40:20 | 2021-01-03 15:45:23 |
如果查询当前订单’12345678‘的状态,则 select * from order where end_date = '9999-12-31 23:59:59' and 订单编号 = '12345678',我们就能拿到状态是“完成”状态
如果查询订单’12345678‘在 2021-01-04 08:32:14 这个时间点的状态,则select * from order where start_date<='2021-01-04 08:32:14' and end_date>='2021-01-04 08:32:14' and 订单编号 = '12345678',我们就能拿到状态是“支付”状态
正如它的名字,流水记录,每次数据变更都会形成一条记录,可以用于反映实际记录的变更历史。流水表与拉链表也有些类似,不同的是拉链表可以根据拉链粒度存储数据,也就是只存储特定维度的数据变化记录;而流水表存储的是每一个修改记录。
商业用途请联系作者获得授权。
版权声明:本文为博主「任霏」原创文章,遵循 CC BY-NC-SA 4.0 版权协议,转载请附上原文出处链接及本声明。
原文链接:https://www.renfei.net/posts/1003449
本站有缓存策略,时间约2小时后能看到您的评论。本站使用自动审核机制,如果您的内容包含广告/谩骂/恐怖/暴力/涉政等不和谐内容将无法展示!
本站有缓存策略,时间约2小时后能看到您的评论。本站使用自动审核机制,如果您的内容包含广告/谩骂/恐怖/暴力/涉政等不和谐内容将无法展示!