订阅RSS：

标签：大数据

Hadoop入门教程（十）：初见 MapReduce 分布式计算

之前的文章初步带大家了解了 HDFS，现在就带大家初探另一个 Hadoop 核心内容 MapReduce。

Hadoop入门教程（九）：本地搭建 Hadoop 开发环境

上一篇我们大致讲了 HDFS，从本节以后我们将通过编程写代码的方式开始使用 Hadoop 为我们服务，所以需要先搭建本地的 Hadoop 开发环境。如果阅读了前面的文章并在虚拟机中成功搭建了Hadoop，那么在本地搭建是易如反掌的，如果您还没搭建过或者没阅读过前面的文章，建议先阅读前面的文章。

进入阅读

Hadoop入门教程（八）：DataNode 工作原理

当 DataNode 启动后会向 NameNode 注册自己，并按周期（1小时）上报自己所有 Block 数据块信息。每3秒还会和 NameNode 传递心跳包，心跳包中包含了给 DataNode 的命令，如果超过10分钟没有收到 DataNode 的心跳，就认为该节点不可用。

进入阅读

Hadoop入门教程（七）：HDFS 数据读写流程

上一篇我们已经可以通过编程的方式操作 HDFS 了，但这一切背后在Hadoop集群里发生了什么呢，本篇文章简单介绍一下 HDFS 的读写流程。

进入阅读

开发创建自定义 NiFi Processor 的教程

本教程将带你创建一个自定义的 Apache NiFi Processor 项目，创建自己的处理器处理 FlowFile，本文的源代码在此处公开：https://github.com/renfei/demo/tree/master/nifi/nifi-custom-bundle

进入阅读

Hadoop入门教程（六）：Hadoop API 使用编程的方式操作 HDFS

上一篇讲了使用 Shell 命令操作 HDFS，但实际中我们肯定不可能一直手动操作，还是需要通过编程实现自动化的，所以本文将带你熟悉一下使用 Java 编程控制 HDFS 中的文件。

进入阅读

Hadoop入门教程（五）：HDFS 分布式文件系统

HDFS是指 Hadoop Distributed File System，Hadoop分布式文件系统。HDFS是一个高度容错性的系统，适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问，非常适合大规模数据集上的应用。

进入阅读

Hadoop入门教程（四）：Hadoop 完全分布式集群环境

上一篇我们尝试了伪分布式的安装搭建，但真正使用的是分布式集群，所以这才是重点，本文章将使用三个节点来安装最小的Hadoop集群，体验完全分布式的环境。

进入阅读

Hadoop入门教程（三）：Hadoop 单节点本地运行与伪分布式

因为是入门学习，很多同学的电脑性能不具备集群环境的要求，我们先了解一下 Hadoop 单节点运行模式，以便您可以使用 Hadoop MapReduce和 Hadoop 分布式文件系统（HDFS）快速执行简单的操作。本节内容主要是带新手体验一下 Hadoop 的案例，相当于 Hello World 案例，揭开 Hadoop 神秘的面纱。

进入阅读