2021-03-22 02:51:56
Hadoop入门教程(十二):Hadoop 的 Writable 类
教程索引目录请访问:《大数据技术入门级系列教程》
上一节我们讲了编程的方式使用 MapReduce,在其中我们第一次接触了到 Writable 类,本节就大概讲一下 Writable 类是干嘛的。
序列化的需求
Hadoop 是分布式的框架,这就意味着数据需要在各个节点之间流转或者到硬盘上存取,这就需要将内存中的对象序列化,然后再反序列化,这部分工作会非常多,所以 Hadoop 需要高效的序列化和反序列化机制,这就是 Writable 类。
在 Java 中有 Serializable 接口,用于对象的序列化和反序列化,但这个接口在把对象序列化和反序列化的时候会附带很多额外的信息,比如各种校验信息、继承信息等,在网络IO和磁盘IO中去存储和传输这些信息很不划算,没有必要,所以 Hadoop 搞出了 Writable 类来存储对象。
Hadoop 中的 Writable 类
上一篇中我们使用了LongWritable、Text、IntWritable,其实还有BooleanWritable、ByteWritable、FloatWritabl、DoubleWritable,下面是个简单的关系表:
Java 基本类型 | Writable 实现 | 字节 |
boolean | BooleanWritable | 1 |
byte | ByteWritable | 1 |
int | IntWritable | 4 |
float | FloatWritable | 4 |
long | LongWritable | 8 |
double | DoubleWritable | 8 |
创建自己的 Writable 类
Hadoop 提供给我们的只是基础的几类,我们可能还需要更多类型的支持,就需要自定义一个对象实现 Writable 接口,这也很简单,只需要实现 org.apache.hadoop.io.Writable 接口,并实现里面的 write 和 readFields方法,例如这样:
package net.renfei.hadoop.entity;
import org.apache.hadoop.io.Writable;
import java.io.DataInput;
import java.io.DataOutput;
import java.io.IOException;
/**
* Title: DemoEntity
* Description:
*
* @author RenFei
*/
public class DemoEntity implements Writable {
private String ip;
private String path;
private int port;
/**
* 序列化方法
*
* @param dataOutput 框架给我们的数据出口
* @throws IOException
*/
public void write(DataOutput dataOutput) throws IOException {
dataOutput.writeUTF(ip);
dataOutput.writeUTF(path);
dataOutput.writeInt(port);
}
/**
* 反序列化方法
*
* @param dataInput 框架给我们的数据来源
* @throws IOException
*/
public void readFields(DataInput dataInput) throws IOException {
ip = dataInput.readUTF();
path = dataInput.readUTF();
port = dataInput.readInt();
}
public String getIp() {
return ip;
}
public void setIp(String ip) {
this.ip = ip;
}
public String getPath() {
return path;
}
public void setPath(String path) {
this.path = path;
}
public int getPort() {
return port;
}
public void setPort(int port) {
this.port = port;
}
}
需要注意的是:write中的顺序需要和readFields中的顺序一致。
这个时候我们就可以在 Hadoop 框架中使用我们自己的 DemoEntity 进行输入输出数据了。
商业用途请联系作者获得授权。
版权声明:本文为博主「任霏」原创文章,遵循 CC BY-NC-SA 4.0 版权协议,转载请附上原文出处链接及本声明。
相关推荐
猜你还喜欢这些内容,不妨试试阅读一下评论与留言
以下内容均由网友提交发布,版权与真实性无法查证,请自行辨别。微信订阅号
扫码关注「任霏博客」微信订阅号内容标签
最新留言
- 你好,我想问一下如果是分析型的数据库要怎么制作docker镜像呢 是修改V008R003C002B0320版本号吗
- 可以的,我也正在开发分享的程序,可以邮件或群联系我都可以,关于页面里有联系方式:https://www.renfei.net/page/about 。
- 有破解软件的需要可以私下联系您吗?
- 您好,手机APP只是个客户端,用于数据呈现展示,数据均保存在服务器上,只留个APP没有任何用处,无能为力哦。
- 老哥 看你弄了这么多软件好厉害啊。 我有个软件 我买过几个小会员 没用几天 然后商家跑路了,软件服务器关闭了,连不上去 用不了。 你能做成一个打补丁版本可以本地用的么? 方便看下么?https://haodezhe.lanzouw.com/iD0f30h9joza 谢谢老哥!
- 您好,由于版权投诉和我国知识产权法的完善,我已经下架所有破解软件的下载链接了。
- 请问怎么下载呀
- 我保存的License在:https://gitlab.com/renfei/KingbaseES-V8-R3/-/tree/master/License ,开发版是长期有效的,只不过限制连接数,现在官网好像已经下线 V8R3 的下载页面了,其他版本我也不确定是否过期
- 这个版本的license有没有
- 序列号长度不对呀
热文排行
- 优雅的源代码管理(二):Git 的工作原理
- 优雅的源代码管理(一):版本控制系统 VCS(Version Control System)与软件配置管理 SCM(Software Configuration Management)
- ChatGPT 开发商 OpenAI 买下极品域名 AI.com
- 火爆的 AI 人工智能 ChatGPT 国内注册教程、使用方式和收费标准
- 解决 SpringCloud 中 bootstrap.yml 不识别 @[email protected] 参数
- Cron表达式书写教程搞定Linux、Spring、Quartz的定时任务
- 阿里云香港可用区C发生史诗级故障
- 国产统信UOS服务器操作系统V20提供免费使用授权
- 开源站长推送工具效果评测推荐(百度/必应/谷歌)
- 获取公网IP服务「ip.renfei.net」升级增加地理定位数据字段公示