大数据ETL技术中对数据进行局部哈希对比优化对比速度
这篇文章是对上一篇文章《大数据ETL技术中的数据抽取方法》的补充,如果还没看过上一篇文章建议先看上一篇文章,本文在上一篇文章的基础上讨论解决数据量在非常大的情况下如何快速对比数据。
在上一篇文章中我们通过对每条数据的所有字段进行了哈希摘要,将几十个字段摘要成了一串哈希值,加快的我们的对比速度,但这只是将字段进行了压缩,数据的数量还是没有被压缩,如果有几十亿条数据,我们还是不能快速的找到变化的数据。
局部哈希
假如我们两边数据各有一万亿条数据,按照上一篇文章提出的对比思路,我们将扫描对比多少次呢?是一万亿乘以一万亿,因为要遍历两边的数据,这种扫描的效率肯定是不行的,所以我们可以将数据分片打包计算哈希摘要。
在字段做完哈希以后,我们先按id字段排个序,然后按照每一万分个组,例如id在1~10000,10001~20000,20001~30000这样,每个组的哈希值连起来再做一次哈希,就得到了这个组的哈希值,也就是全部数据的局部哈希值,一万亿的数据被我们切分压缩成了一亿个局部哈希,我们对比每个局部哈希值,遇到不一样的,再去对比这个组里每条数据的哈希,就可以找到不一致的数据。
举个例子
为了方便演示,我们以20条数据为例,分别有数据源A、数据源B:
id | 字段 | 字段 | 字段 | 字段 |
1 | 内容 | 内容 | 内容 | 内容 |
2 | 内容 | 内容 | 内容 | 内容 |
3 | 内容 | 内容 | 内容 | 内容 |
4 | 内容 | 内容 | 内容 | 内容 |
5 | 内容 | 内容 | 内容 | 内容 |
6 | 内容 | 内容 | 内容 | 内容 |
7 | 内容 | 内容 | 内容 | 内容 |
8 | 内容 | 内容 | 内容 | 内容 |
9 | 内容 | 内容 | 内容 | 内容 |
10 | 内容 | 内容 | 内容 | 内容 |
11 | 内容 | 内容 | 内容 | 内容 |
12 | 内容 | 内容 | 内容 | 内容 |
13 | 内容 | 内容 | 内容 | 内容 |
14 | 内容 | 内容 | 内容 | 内容 |
15 | 内容 | 内容 | 内容 | 内容 |
16 | 内容 | 内容 | 内容 | 内容 |
17 | 内容 | 内容 | 内容 | 内容 |
18 | 内容 | 内容 | 内容 | 内容 |
19 | 内容 | 内容 | 内容 | 内容 |
id | 字段 | 字段 | 字段 | 字段 |
1 | 内容 | 内容 | 内容 | 内容 |
2 | 内容 | 内容 | 内容 | 内容 |
3 | 内容 | 内容 | 内容 | 内容 |
4 | 内容 | 内容 | 内容 | 内容 |
5 | 内容 | 内容 | 内容 | 内容 |
6 | 内容 | 内容 | 内容 | 内容 |
7 | 内容 | 内容 | 内容 | 内容 |
8 | 内容 | 内容 | 内容 | 内容 |
9 | 内容 | 内容 | 内容 | 内容 |
10 | 内容 | 内容 | 内容 | 内容 |
11 | 内容 | 内容 | 内容 | 内容 |
12 | 内容 | 内容 | 内容 | 内容 |
13 | 内容 | 内容 | 内容 | 内容 |
14 | 内容 | 内容 | 内容 | 内容 |
15 | 内容 | 内容 | 内容 | 内容 |
16 | 内容 | 内容 | 内容 | 内容 |
17 | 内容 | 内容 | 内容 | 内容 |
18 | 内容 | 内容 | 内容 | 内容 |
19 | 内容 | 内容 | 内容 | 内容 |
20 | 内容 | 内容 | 内容 | 内容 |
我们先对每条数据的字段内容进行哈希摘要,得到如下内容:
id | 哈希 |
1 | 3dc57f9c5592436c88a2524c20c0286e3dc57f9c |
2 | 9c14be621dd8440b9af1904d14bfc3869c14be62 |
3 | 5e4e864908ab4bf184fca290d65637c35e4e8649 |
4 | a86f9409404b4ad4add119b010d48acda86f9409 |
5 | 7d60b2fff0884bc196342fc02cf917d67d60b2ff |
6 | 4956454889694d129e73c717afc4bb4c49564548 |
7 | e1a6c8d8895a49528d2a26429cd3f541e1a6c8d8 |
8 | 80b1d5d92257414ebe6b3861bf7e978980b1d5d9 |
9 | 3969f7b63507472aacae2b377ecc75453969f7b6 |
10 | 9d6e4f78fc424d58ba1464da308ee6d59d6e4f78 |
11 | aa75a53d3ec1442d994c477cb4761608aa75a53d |
12 | 72be42e2b2c943c0a46ea2d6ba73746972be42e2 |
13 | 219ed8d179e24ba88cd34779c8022384219ed8d1 |
14 | e1b6b02367ed49e7b1c01cdf60b0dffce1b6b023 |
15 | d41fd4ec5efe44779d5970592a6b2bacd41fd4ec |
16 | 906d965b7a114608bb170f4504df0aba906d965b |
17 | 294753f98c564bf7a58e0fc1ace67aff294753f9 |
18 | 148bcb667f9d412187176d346f6bcbc0148bcb66 |
19 | 927d8354109a420bb8a0434d6aba7a69927d8354 |
id | 哈希 |
1 | 3dc57f9c5592436c88a2524c20c0286e3dc57f9c |
2 | 9c14be621dd8440b9af1904d14bfc3869c14be62 |
3 | 5e4e864908ab4bf184fca290d65637c35e4e8649 |
4 | a86f9409404b4ad4add119b010d48acda86f9409 |
5 | 7d60b2fff0884bc196342fc02cf917d67d60b2ff |
6 | 4956454889694d129e73c717afc4bb4c49564548 |
7 | e1a6c8d8895a49528d2a26429cd3f541e1a6c8d8 |
8 | 80b1d5d92257414ebe6b3861bf7e978980b1d5d9 |
9 | 3969f7b63507472aacae2b377ecc75453969f7b6 |
10 | 9d6e4f78fc424d58ba1464da308ee6d59d6e4f78 |
11 | aa75a53d3ec1442d994c477cb4761608aa75a53d |
12 | 72be42e2b2c943c0a46ea2d6ba73746972be42e2 |
13 | 219ed8d179e24ba88cd34779c8022384219ed8d1 |
14 | e1b6b02367ed49e7b1c01cdf60b0dffce1b6b023 |
15 | d41fd4ec5efe44779d5970592a6b2bacd41fd4ec |
16 | 906d965b7a114608bb170f4504df0aba906d965b |
17 | 294753f98c564bf7a58e0fc1ace67aff294753f9 |
18 | 148bcb667f9d412187176d346f6bcbc0148bcb66 |
19 | 927d8354109a420bb8a0434d6aba7a69927d8354 |
20 | 49f952179c10465bb1f76961384a404949f95217 |
然后我们按照10条为一组,对每组的哈希再摘要哈希值,得到如下情况:
id | 局部哈希 | 哈希 |
1 | 75d65498d9c861fa464c1607fe7c60b5e1f8a9de | 3dc57f9c5592436c88a2524c20c0286e3dc57f9c |
2 | 9c14be621dd8440b9af1904d14bfc3869c14be62 | |
3 | 5e4e864908ab4bf184fca290d65637c35e4e8649 | |
4 | a86f9409404b4ad4add119b010d48acda86f9409 | |
5 | 7d60b2fff0884bc196342fc02cf917d67d60b2ff | |
6 | 4956454889694d129e73c717afc4bb4c49564548 | |
7 | e1a6c8d8895a49528d2a26429cd3f541e1a6c8d8 | |
8 | 80b1d5d92257414ebe6b3861bf7e978980b1d5d9 | |
9 | 3969f7b63507472aacae2b377ecc75453969f7b6 | |
10 | 9d6e4f78fc424d58ba1464da308ee6d59d6e4f78 | |
11 | 77b540f49a595afbb1c3f9209de23e8d00688c02 | aa75a53d3ec1442d994c477cb4761608aa75a53d |
12 | 72be42e2b2c943c0a46ea2d6ba73746972be42e2 | |
13 | 219ed8d179e24ba88cd34779c8022384219ed8d1 | |
14 | e1b6b02367ed49e7b1c01cdf60b0dffce1b6b023 | |
15 | d41fd4ec5efe44779d5970592a6b2bacd41fd4ec | |
16 | 906d965b7a114608bb170f4504df0aba906d965b | |
17 | 294753f98c564bf7a58e0fc1ace67aff294753f9 | |
18 | 148bcb667f9d412187176d346f6bcbc0148bcb66 | |
19 | 927d8354109a420bb8a0434d6aba7a69927d8354 |
id | 局部哈希 | 哈希 |
1 | 75d65498d9c861fa464c1607fe7c60b5e1f8a9de | 3dc57f9c5592436c88a2524c20c0286e3dc57f9c |
2 | 9c14be621dd8440b9af1904d14bfc3869c14be62 | |
3 | 5e4e864908ab4bf184fca290d65637c35e4e8649 | |
4 | a86f9409404b4ad4add119b010d48acda86f9409 | |
5 | 7d60b2fff0884bc196342fc02cf917d67d60b2ff | |
6 | 4956454889694d129e73c717afc4bb4c49564548 | |
7 | e1a6c8d8895a49528d2a26429cd3f541e1a6c8d8 | |
8 | 80b1d5d92257414ebe6b3861bf7e978980b1d5d9 | |
9 | 3969f7b63507472aacae2b377ecc75453969f7b6 | |
10 | 9d6e4f78fc424d58ba1464da308ee6d59d6e4f78 | |
11 | 91244c3037f6b6c308ead098c2ed48584c4eefad | aa75a53d3ec1442d994c477cb4761608aa75a53d |
12 | 72be42e2b2c943c0a46ea2d6ba73746972be42e2 | |
13 | 219ed8d179e24ba88cd34779c8022384219ed8d1 | |
14 | e1b6b02367ed49e7b1c01cdf60b0dffce1b6b023 | |
15 | d41fd4ec5efe44779d5970592a6b2bacd41fd4ec | |
16 | 906d965b7a114608bb170f4504df0aba906d965b | |
17 | 294753f98c564bf7a58e0fc1ace67aff294753f9 | |
18 | 148bcb667f9d412187176d346f6bcbc0148bcb66 | |
19 | 927d8354109a420bb8a0434d6aba7a69927d8354 | |
20 | 49f952179c10465bb1f76961384a404949f95217 |
原本需要对比19X20=380次,现在我们只需要先对比两个局部哈希,发现id在11~20的这个区域不一致,那么我们再对比11~20的这个区域中每个详细的哈希值,对比9X10=90次,再加上我们对比局部哈希的两次,我们只对比了92次就把原先需要380次的对比完成了。以下是示意图:

商业用途请联系作者获得授权。
版权声明:本文为博主「任霏」原创文章,遵循 CC BY-NC-SA 4.0 版权协议,转载请附上原文出处链接及本声明。
相关推荐
猜你还喜欢这些内容,不妨试试阅读一下评论与留言
以下内容均由网友提交发布,版权与真实性无法查证,请自行辨别。微信订阅号
扫码关注「任霏博客」微信订阅号- 你写得非常清晰明了,让我很容易理解你的观点。
- 感谢分享!拿走了~
- 您是说 UCClient 类接收来自Discuz的UCenter的消息吧,请求是来自 Discuz 的 UCenter吗?code 为 null 说明请求URL地址中没有 code 参数 (?code=xxx) ,确定是 UCenter 发起的请求吗?
- String code = request.getParameter("code"); code一直是null 这是为什么啊
- 你好,我想问一下如果是分析型的数据库要怎么制作docker镜像呢 是修改V008R003C002B0320版本号吗
- 可以的,我也正在开发分享的程序,可以邮件或群联系我都可以,关于页面里有联系方式:https://www.renfei.net/page/about 。
- 有破解软件的需要可以私下联系您吗?
- 您好,手机APP只是个客户端,用于数据呈现展示,数据均保存在服务器上,只留个APP没有任何用处,无能为力哦。
- 老哥 看你弄了这么多软件好厉害啊。 我有个软件 我买过几个小会员 没用几天 然后商家跑路了,软件服务器关闭了,连不上去 用不了。 你能做成一个打补丁版本可以本地用的么? 方便看下么?https://haodezhe.lanzouw.com/iD0f30h9joza 谢谢老哥!
- 您好,由于版权投诉和我国知识产权法的完善,我已经下架所有破解软件的下载链接了。
- 生花妙笔信手来 – 基于 Amazon SageMaker 使用 Grounded-SAM 加速电商广告素材生成 [1]
- github.renfei.net 不再完整代理 Github 页面改为代理指定文件
- 优雅的源代码管理(三):本地优雅的使用 Git Rebase 变基
- 优雅的源代码管理(二):Git 的工作原理
- 优雅的源代码管理(一):版本控制系统 VCS(Version Control System)与软件配置管理 SCM(Software Configuration Management)
- ChatGPT 开发商 OpenAI 买下极品域名 AI.com
- 火爆的 AI 人工智能 ChatGPT 国内注册教程、使用方式和收费标准
- 解决 SpringCloud 中 bootstrap.yml 不识别 @activatedProperties@ 参数
- Cron表达式书写教程搞定Linux、Spring、Quartz的定时任务
- 阿里云香港可用区C发生史诗级故障