Hadoop入门教程（十）：初见 MapReduce 分布式计算

2021年03月20日 13:02:43 · 本文共 1,267 字阅读时间约 4分钟 · 2,830 次浏览

之前的文章初步带大家了解了 HDFS，现在就带大家初探另一个 Hadoop 核心内容 MapReduce。

什么是 MapReduce

MapReduce 是分布式运算的编程框架，Map（映射）和 Reduce（归约）是它们的主要思想，最早是由Google公司研究提出的一种面向大规模数据处理的并行计算模型和方法。Google公司设计MapReduce的初衷主要是为了解决其搜索引擎中大规模网页数据的并行化处理。Google公司发明了MapReduce之后首先用其重新改写了其搜索引擎中的Web文档索引处理系统。但由于MapReduce可以普遍应用于很多大规模数据的计算问题，因此自发明MapReduce以后，Google公司内部进一步将其广泛应用于很多大规模数据处理问题。Google公司内有上万个各种不同的算法问题和程序都使用MapReduce进行处理。

2003年和2004年，Google公司在国际会议上分别发表了两篇关于Google分布式文件系统和MapReduce的论文，公布了Google的GFS和MapReduce的基本原理和主要设计思想。

MapReduce 的优点

MapReduce 既然是分布式运算的编程框架，是个编程框架，那么它就可以让程序员简单的完成一个分布式程序开发，跟之前写串行程序一样的简单。
当你的计算能力不满足你的需求时可以简单的通过添加机器的方式来扩容计算能力。
MapReduce 还具有容错性，当有节点死亡后还可以将计算任务转移到其他节点上运行，不会导致整个任务执行失败，而这一切不需要人工干预，这套编程框架将为我们自动完成。
因为是分布式的计算框架，它还可以处理海量的数据。

MapReduce 的缺点

不是实时计算，MapReduce 不能像SQL一样马上给出结果，所以大部分用于离线计算。
不能是流式计算，MapReduce 自身设计的特点是处理静态数据的，而不是实时动态数据的计算。

MapReduce 的思想

MapReduce 分为 Map（映射）和 Reduce（归约）两个步骤或者说两个阶段，我们分别来说。

Map（映射）

此处的 Map 操作叫映射，因为我们拿到的数据千奇百怪，格式可能不符合我们运算的需要，那么就需要对原始数据进行一些处理，整理成我需要的数据格式，以之前文章使用的 WordCount 单词统计的案例来说：

原始数据是一行一行的语句，每行有多个单词按空格分隔，那么 Map（映射）就是对原始数据逐行读取，并按照空格分隔进行切分成多个 K/V 键值对，例如：[{renfei:1},{word:1},{renfei:1},{test:1}]。就完成了Map（映射）.

因为数据是以数据块(Block)分布在很多节点上的，那么就可以多个节点同步并行执行，大家一起搞。

Reduce（归约）

Reduce（归约）是第二步，将我们上一步Map（映射）的结果进一步处理，WordCount 的统计功能其实就是在 Reduce（归约）这一步做的，因为上一步 Map（映射）将源数据转换成了我们认识并且能处理的格式，所以这一步我们就可以对数据进行处理，统计就是其中一种处理。

结尾

现在我们已经大致了解了 MapReduce，下一章节我们将使用编程的方式使用 MapReduce 实现之前体验的 WordCount 案例，进一步理解 MapReduce 是怎么回事。

商业用途请联系作者获得授权。
版权声明：本文为博主「任霏」原创文章，遵循 CC BY-NC-SA 4.0 版权协议，转载请附上原文出处链接及本声明。
原文链接：https://www.renfei.net/posts/1003470