Hadoop入门教程(十):初见 MapReduce 分布式计算
之前的文章初步带大家了解了 HDFS,现在就带大家初探另一个 Hadoop 核心内容 MapReduce。
什么是 MapReduce
MapReduce 是分布式运算的编程框架,Map(映射)和 Reduce(归约)是它们的主要思想,最早是由Google公司研究提出的一种面向大规模数据处理的并行计算模型和方法。Google公司设计MapReduce的初衷主要是为了解决其搜索引擎中大规模网页数据的并行化处理。Google公司发明了MapReduce之后首先用其重新改写了其搜索引擎中的Web文档索引处理系统。但由于MapReduce可以普遍应用于很多大规模数据的计算问题,因此自发明MapReduce以后,Google公司内部进一步将其广泛应用于很多大规模数据处理问题。Google公司内有上万个各种不同的算法问题和程序都使用MapReduce进行处理。
2003年和2004年,Google公司在国际会议上分别发表了两篇关于Google分布式文件系统和MapReduce的论文,公布了Google的GFS和MapReduce的基本原理和主要设计思想。
MapReduce 的优点
MapReduce 既然是分布式运算的编程框架,是个编程框架,那么它就可以让程序员简单的完成一个分布式程序开发,跟之前写串行程序一样的简单。
当你的计算能力不满足你的需求时可以简单的通过添加机器的方式来扩容计算能力。
MapReduce 还具有容错性,当有节点死亡后还可以将计算任务转移到其他节点上运行,不会导致整个任务执行失败,而这一切不需要人工干预,这套编程框架将为我们自动完成。
因为是分布式的计算框架,它还可以处理海量的数据。
MapReduce 的缺点
不是实时计算,MapReduce 不能像SQL一样马上给出结果,所以大部分用于离线计算。
不能是流式计算,MapReduce 自身设计的特点是处理静态数据的,而不是实时动态数据的计算。
MapReduce 的思想
MapReduce 分为 Map(映射)和 Reduce(归约)两个步骤或者说两个阶段,我们分别来说。
Map(映射)
此处的 Map 操作叫映射,因为我们拿到的数据千奇百怪,格式可能不符合我们运算的需要,那么就需要对原始数据进行一些处理,整理成我需要的数据格式,以之前文章使用的 WordCount 单词统计的案例来说:
原始数据是一行一行的语句,每行有多个单词按空格分隔,那么 Map(映射)就是对原始数据逐行读取,并按照空格分隔进行切分成多个 K/V 键值对,例如:[{renfei:1},{word:1},{renfei:1},{test:1}]。就完成了Map(映射).
因为数据是以数据块(Block)分布在很多节点上的,那么就可以多个节点同步并行执行,大家一起搞。
Reduce(归约)
Reduce(归约)是第二步,将我们上一步Map(映射)的结果进一步处理,WordCount 的统计功能其实就是在 Reduce(归约)这一步做的,因为上一步 Map(映射)将源数据转换成了我们认识并且能处理的格式,所以这一步我们就可以对数据进行处理,统计就是其中一种处理。
结尾
现在我们已经大致了解了 MapReduce,下一章节我们将使用编程的方式使用 MapReduce 实现之前体验的 WordCount 案例,进一步理解 MapReduce 是怎么回事。
商业用途请联系作者获得授权。
版权声明:本文为博主「任霏」原创文章,遵循 CC BY-NC-SA 4.0 版权协议,转载请附上原文出处链接及本声明。
相关推荐
猜你还喜欢这些内容,不妨试试阅读一下评论与留言
以下内容均由网友提交发布,版权与真实性无法查证,请自行辨别。微信订阅号
扫码关注「任霏博客」微信订阅号- 大佬 引入jar包那里的 driver class 怎么选的?
- 我也遇到了这个问题,已经解决了,在此分享一下 1、宿主机也要创建kingbase的用户和用户组,并且要查看一下用户和用户组的ID(这个很重要) 2、把data目录的用户和用户组设置为kingbase 3、先不要把data路径挂载到宿主机上,这时就可以正常启动,启动后进入容器,查看一下容器内的kingbase的用户和用户组ID是多少,和第一步的ID是否一致,如果ID一致,那正常挂载目录就行;如果ID不一致,那就需要修改Dockerfile文件,在构建镜像时,修改容器内的用户和用户组ID,必须和宿主机的保持一致。然后重新构建镜像,就可以正常挂载宿主机目录了 4、其实直接修改宿主机的用户和用户组ID也是可以的,但是容器内的ID一般是1000,但是宿主机的这个ID很可能已经被占用了,无法修改,就只能修改容器内的ID
- 接口已经允许跨域请求,也就是说你可以在你的页面上调用,获取用户的公网 IP。 如果你还需要其他需求,可以提交 Issue 给我。
- V008R003C002B0320 这个对应的jdbc链接驱动你在哪里找到的?我也遇到了这个问题。
- WARNING: max_connections should be less than orequal than 10 (restricted by license) HINT: the value of max_connect is set 10 WARNING: max_connections should be less than orequal than 10 (restricted by license) HINT: the value of max_connect is set 10 kingbase: superuser_reserved_connections must be less than max_connections 我按照文档修改了以后,不知道如何重启。
- 然后把数字都改成 1 再启动。 如何重新启动?
- ksql: could not connect to server: No such file or directory Is the server running locally and accepting connections on Unix domain socket "/tmp/.s.KINGBASE.54321"
- 进入容器查看一下日志,是不是启动失败了,日志文件在:/opt/kingbase/logfile
- ksql: could not connect to server: No such file or directory Is the server running locally and accepting connections on Unix domain socket "/tmp/.s.KINGBASE.54321"?
- 先通过 docker exec -it 容器名/id /bin/bash 进入容器,然后在容器中使用 ksql 客户端进行连接数据库:/opt/kingbase/Server/bin/ksql -U system test
- 免费.ml域名10年委托合同到期被马里共和国收回域名经营权
- 从极狐Gitlab看各种中间件技术选型
- 时隔十年首次收到 Google AdSense 的付款
- ga域名被加蓬共和国从Freenom公司手中收回域名经营权
- Freenom 被 Meta(Facebook) 起诉导致暂停 .tk/.ga/.ml/.cf/.gq 等新域名注册
- 生花妙笔信手来 – 基于 Amazon SageMaker 使用 Grounded-SAM 加速电商广告素材生成 [1]
- github.renfei.net 不再完整代理 Github 页面改为代理指定文件
- 优雅的源代码管理(三):本地优雅的使用 Git Rebase 变基
- 优雅的源代码管理(二):Git 的工作原理
- 优雅的源代码管理(一):版本控制系统 VCS(Version Control System)与软件配置管理 SCM(Software Configuration Management)