Hadoop入门教程(十):初见 MapReduce 分布式计算
之前的文章初步带大家了解了 HDFS,现在就带大家初探另一个 Hadoop 核心内容 MapReduce。
什么是 MapReduce
MapReduce 是分布式运算的编程框架,Map(映射)和 Reduce(归约)是它们的主要思想,最早是由Google公司研究提出的一种面向大规模数据处理的并行计算模型和方法。Google公司设计MapReduce的初衷主要是为了解决其搜索引擎中大规模网页数据的并行化处理。Google公司发明了MapReduce之后首先用其重新改写了其搜索引擎中的Web文档索引处理系统。但由于MapReduce可以普遍应用于很多大规模数据的计算问题,因此自发明MapReduce以后,Google公司内部进一步将其广泛应用于很多大规模数据处理问题。Google公司内有上万个各种不同的算法问题和程序都使用MapReduce进行处理。
2003年和2004年,Google公司在国际会议上分别发表了两篇关于Google分布式文件系统和MapReduce的论文,公布了Google的GFS和MapReduce的基本原理和主要设计思想。
MapReduce 的优点
MapReduce 既然是分布式运算的编程框架,是个编程框架,那么它就可以让程序员简单的完成一个分布式程序开发,跟之前写串行程序一样的简单。
当你的计算能力不满足你的需求时可以简单的通过添加机器的方式来扩容计算能力。
MapReduce 还具有容错性,当有节点死亡后还可以将计算任务转移到其他节点上运行,不会导致整个任务执行失败,而这一切不需要人工干预,这套编程框架将为我们自动完成。
因为是分布式的计算框架,它还可以处理海量的数据。
MapReduce 的缺点
不是实时计算,MapReduce 不能像SQL一样马上给出结果,所以大部分用于离线计算。
不能是流式计算,MapReduce 自身设计的特点是处理静态数据的,而不是实时动态数据的计算。
MapReduce 的思想
MapReduce 分为 Map(映射)和 Reduce(归约)两个步骤或者说两个阶段,我们分别来说。
Map(映射)
此处的 Map 操作叫映射,因为我们拿到的数据千奇百怪,格式可能不符合我们运算的需要,那么就需要对原始数据进行一些处理,整理成我需要的数据格式,以之前文章使用的 WordCount 单词统计的案例来说:
原始数据是一行一行的语句,每行有多个单词按空格分隔,那么 Map(映射)就是对原始数据逐行读取,并按照空格分隔进行切分成多个 K/V 键值对,例如:[{renfei:1},{word:1},{renfei:1},{test:1}]。就完成了Map(映射).
因为数据是以数据块(Block)分布在很多节点上的,那么就可以多个节点同步并行执行,大家一起搞。
Reduce(归约)
Reduce(归约)是第二步,将我们上一步Map(映射)的结果进一步处理,WordCount 的统计功能其实就是在 Reduce(归约)这一步做的,因为上一步 Map(映射)将源数据转换成了我们认识并且能处理的格式,所以这一步我们就可以对数据进行处理,统计就是其中一种处理。
结尾
现在我们已经大致了解了 MapReduce,下一章节我们将使用编程的方式使用 MapReduce 实现之前体验的 WordCount 案例,进一步理解 MapReduce 是怎么回事。
商业用途请联系作者获得授权。
版权声明:本文为博主「任霏」原创文章,遵循 CC BY-NC-SA 4.0 版权协议,转载请附上原文出处链接及本声明。
相关推荐
猜你还喜欢这些内容,不妨试试阅读一下评论与留言
以下内容均由网友提交发布,版权与真实性无法查证,请自行辨别。微信订阅号
扫码关注「任霏博客」微信订阅号- 你好,我想问一下如果是分析型的数据库要怎么制作docker镜像呢 是修改V008R003C002B0320版本号吗
- 可以的,我也正在开发分享的程序,可以邮件或群联系我都可以,关于页面里有联系方式:https://www.renfei.net/page/about 。
- 有破解软件的需要可以私下联系您吗?
- 您好,手机APP只是个客户端,用于数据呈现展示,数据均保存在服务器上,只留个APP没有任何用处,无能为力哦。
- 老哥 看你弄了这么多软件好厉害啊。 我有个软件 我买过几个小会员 没用几天 然后商家跑路了,软件服务器关闭了,连不上去 用不了。 你能做成一个打补丁版本可以本地用的么? 方便看下么?https://haodezhe.lanzouw.com/iD0f30h9joza 谢谢老哥!
- 您好,由于版权投诉和我国知识产权法的完善,我已经下架所有破解软件的下载链接了。
- 请问怎么下载呀
- 我保存的License在:https://gitlab.com/renfei/KingbaseES-V8-R3/-/tree/master/License ,开发版是长期有效的,只不过限制连接数,现在官网好像已经下线 V8R3 的下载页面了,其他版本我也不确定是否过期
- 这个版本的license有没有
- 序列号长度不对呀
- 优雅的源代码管理(二):Git 的工作原理
- 优雅的源代码管理(一):版本控制系统 VCS(Version Control System)与软件配置管理 SCM(Software Configuration Management)
- ChatGPT 开发商 OpenAI 买下极品域名 AI.com
- 火爆的 AI 人工智能 ChatGPT 国内注册教程、使用方式和收费标准
- 解决 SpringCloud 中 bootstrap.yml 不识别 @[email protected] 参数
- Cron表达式书写教程搞定Linux、Spring、Quartz的定时任务
- 阿里云香港可用区C发生史诗级故障
- 国产统信UOS服务器操作系统V20提供免费使用授权
- 开源站长推送工具效果评测推荐(百度/必应/谷歌)
- 获取公网IP服务「ip.renfei.net」升级增加地理定位数据字段公示