订阅RSS：

标签：开发

ZooKeeper是一个分布式的，开放源码的分布式应用程序协调服务，是Google的Chubby一个开源的实现，是Hadoop和Hbase的重要组件。它可以接受观察者的注册订阅，当数据发生改变时就可以通知观察者，你可以理解为 ZooKeeper = 文件系统+通知机制。

在上一篇教程我们引入了 MapReduce 的执行机制，并粗略的讲了 InputFormat，现在该讲一下 Shuffle 了。Map方法之后，Reduce方法之前的数据处理过程称之为Shuffle。

在前面《Hadoop入门教程（十一）：编程的方式使用 MapReduce 实现 WordCount 案例》中我们使用编程的方式体验了 MapReduce，MapReduce 的工作流程大概是下面这样的

上一节我们讲了编程的方式使用 MapReduce，在其中我们第一次接触了到 Writable 类，本节就大概讲一下 Writable 类是干嘛的。

上一篇文章我们大致了解了什么是 MapReduce，这一节我们将使用代码编程的方式实现 WordCount 案例，体验一下 MapReduce 到底是怎么回事。

之前的文章初步带大家了解了 HDFS，现在就带大家初探另一个 Hadoop 核心内容 MapReduce。

2021年3月18日，全球第二大开源软件商GitLab宣布极狐信息技术（湖北）有限公司正式在中国武汉注册成立。

上一篇我们大致讲了 HDFS，从本节以后我们将通过编程写代码的方式开始使用 Hadoop 为我们服务，所以需要先搭建本地的 Hadoop 开发环境。如果阅读了前面的文章并在虚拟机中成功搭建了Hadoop，那么在本地搭建是易如反掌的，如果您还没搭建过或者没阅读过前面的文章，建议先阅读前面的文章。

当 DataNode 启动后会向 NameNode 注册自己，并按周期（1小时）上报自己所有 Block 数据块信息。每3秒还会和 NameNode 传递心跳包，心跳包中包含了给 DataNode 的命令，如果超过10分钟没有收到 DataNode 的心跳，就认为该节点不可用。

上一篇我们已经可以通过编程的方式操作 HDFS 了，但这一切背后在Hadoop集群里发生了什么呢，本篇文章简单介绍一下 HDFS 的读写流程。

本教程将带你创建一个自定义的 Apache NiFi Processor 项目，创建自己的处理器处理 FlowFile，本文的源代码在此处公开：https://github.com/renfei/demo/tree/master/nifi/nifi-custom-bundle

博文分类

热评文章

热文排行