HDFS数据写入流程详解网络amingoss的博客-

30 四月

星期四, 30 四月 2020 15:10 Last Updated on 星期四, 30 四月 2020 15:10 0 Comments

HDFS数据写入流程详解

HDFS数据写入流程是hdfs理论框架的基础，完全理解HDFS的数据写入流程是每一个大数据从业人员的必备技能。
下面以300m文件写入hadoop2.x为例，详细讲解HDFS数据写入的详细过程。

主要包括：
1.数据写入流程图
2.数据写入相关组件
3.数据写入组件通信协议
4.hdfs通信协议

1.数据写入流程图：

HDFS数据写入流程详解网络amingoss的博客-

数据写入过程详解：
（1）客户端发送消息给namenode请求上传300m文件。
（2）Namenode应答可以上传。
（3）客户端上传之前对文件进行切片，切片规则：按datanode的block块大小进行切片，hadoop2.x默认block大小为128m（hadoop1.x默认block大小64m）。
300m文件切分为3片：第一片128m,第二片128m，剩下44m单独为1片。
客户端上传切片1，namenode返回上传的datanode信息，具体namenode如何选择datanode，选择哪些datanode是hadoop机架感知特性和副本个数决定（默认副本个数为3）决定。机架感知后面再说。
（4）客户端拿到datanode信息后，与datanode1直接建立通信通道，开始上传数据。以packet为单位上传,packet默认大小为64k。
（5）上传到dataNode1中的数据先存到byteBuffer缓存中，达到block大小，再刷到block中进行物理存储。
（6）DataNode1和dataNode2，dataNode2与dataNode3同时会建立通信通道，进行数据的副本传输。Datanode2和datanode3完成数据通信后，依次按通信顺序，最终应答给DataNode1,DataNode1再应答client，完成数据的通信。
（7）第一各切片完成传输以后，开始传输第二各切片，过程同切片一。

2.数据写入相关组件

2.1 客户端

主要的客户端：
（1）Hadoop Shell命令
（2）Java API:
DistributedFileSystem
FSDataOutputStream

2.2 NameNode

负责整个分布式文件系统的元数据（MetaData）管理，也就是文件路径名，数据block的ID以及存储位置等信息。

2.3 DataNode

负责文件数据的存储和读写操作，HDFS将文件数据分割成若干块（block），每个DataNode存储一部分block。

3.数据写入组件通信协议

Client与namenode通信
（1）Hadoop RPC
具体协议接口：ClientProtocol:客户端和namenode的接口；

client与datanode通信
（1）Hadoop RPC 
具体协议接口：ClientDatanodeProtocol:客户端与datanode的接口（这个方法主要是用于客户端获取数据节点信息时调用，真正的数据读写交互在流式接口进行）
（2）DataTransferProtocol–基于TCP【推荐】
Hadoop RPC框架的效率目前还不足以支撑超大文件的读写，而使用基于TCP的流式接口有利于批量处理数据，同时提高了数据的吞吐量

Datanode与namenode通信
（1）Hadoop RPC
具体协议接口：
DatanodeProtocol:datanode与namenode通信接口

Datanode与datanode通信
（1）Hadoop RPC
具体协议接口：
InterDatanodeProtocol:datanode与datanode的通信接口

secondary namenode与namenode通信
（1）Hadoop RPC
具体协议接口：
NamenodeProtocol:secondary namenode与namenode的接口
（2）流式接口
Active Namenode和Secondary Namenode之间的HTTP接口

4.hdfs通信协议

4.1 HDFS中提供两种通信协议

1.Hadoop RPC接口：HDFS中基于Hadoop RPC框架实现的接口
2.流式接口：HDFS中基于TCP或者HTTP实现的接口

4.2 hadoop RPC接口

Hadoop RPC调用使得HDFS进程能够像本地调用一样调用另一个进程中的方法，目前Hadoop RPC调用基于Protobuf实现。
备注：protocolbuffer(以下简称PB)是google 的一种数据交换的格式，它独立于语言，独立于平台。
用于分布式应用之间的数据通信或者异构环境下的数据交换。作为一种效率和兼容性都很优秀的二进制数据传输格式，可以用于诸如网络传输、配置文件、数据存储等诸多领域。
proto文件定义了协议数据中的实体结构(message ,field)
关键字message: 代表了实体结构，由多个消息字段(field)组成。
消息字段(field): 包括数据类型、字段名、字段规则、字段唯一标识、默认值

4.2.1 主要包含如下接口：

ClientProtocol:客户端和namenode的接口；
ClientDatanodeProtocol:客户端与datanode的接口（这个方法主要是用于客户端获取数据节点信息时调用，真正的数据读写交互在流式接口进行）
DatanodeProtocol:datanode与namenode通信接口
InterDatanodeProtocol:datanode与datanode的通信接口
NamenodeProtocol:secondary namenode与namenode的接口
其他接口：主要包括安全相关接口，HA相关接口

4.3 流式接口

流式接口是HDFS中基于TCP或HTTP实现的接口。
主要包括：

4.3.1 DataTransferProtocol–基于TCP

DataTransferProtocol是用来描述写入或者读出Datanode上数据的基于TCP的流式接口，HDFS客户端与Datanode以及Datanode与Datanode之间的数据块的传输就是基于DataTransferProtocol接口实现的。

备注：HDFS没有采用Hadoop RPC来实现HDFS文件的读写功能，是因为Hadoop RPC框架的效率目前还不足以支撑超大文件的读写，而使用基于TCP的流式接口有利于批量处理数据，同时提高了数据的吞吐量。

4.3.2 Active Namenode和Secondary Namenode之间的HTTP接口

Active Namenode和Secondary Namenode之间的HTTP接口就是用来传输这个新的fsimage文件的，Secondary Namenode成功地将自己的命令空间写入新的fsimage文件后，就会向Active Namenode的ImageServlet发送HTTP GET请求/getimage?putimage=1。这个请求的URL中包括了新的fsimage文件的事务ID，以及Secondary Namenode用于下载的端口和IP地址。Active Namenode收到这个请求后，会根据Standby Namenode提供的信息向Standby Namenode的ImageServlet发起HTTP GET请求下载fsimage文件。

qq_239821429 HDFS数据写入流程详解网络amingoss的博客-

原创文章 6获赞 16访问量 489

关注私信

展开阅读全文

2
评论 1
x
海报

扫一扫，海报
1
手机看

到微信朋友圈

x

扫一扫，手机阅读
打赏

打赏

qq_239821429

“你的鼓励将是我创作的最大动力”

5C币 10C币 20C币 50C币 100C币 200C币

确定

小哲的博客

08-06 HDFS数据写入流程详解网络amingoss的博客- 972

【Hadoop】HDFS文件写入流程详解

HDFS文件写入流程详解HDFS文件写入流程题目：Client 端上传文件的时候下列哪项正确？A. 数据经过 NameNode 传递给 DataNode B. Client 端将文件切分为 Blo…

本页所有内容来自官方网站 https://www.imapbox.com 新闻来源：互联网搜索引擎和新闻站

本网页所有图片由 ImageBox 图片批量下载器,网页图片批量下载专家,网页图片批量下载器,获取到文章图片，下载并得到。

ImageBox 图片批量下载器工具地址: 网页图片批量下载工具-最新版本下载

非凡下载站地址：https://www.crsky.com/soft/35838.html

本网页所有视频内容由 imoviebox边看边下-网页视频下载, iurlBox网页地址收藏管理器下载并得到。

ImovieBox网页视频下载器下载地址: ImovieBox网页视频下载器-最新版本下载

本文章由: imapbox邮箱云存储,邮箱网盘,ImageBox 图片批量下载器,网页图片批量下载专家,网页图片批量下载器,获取到文章图片,imoviebox网页视频批量下载器,下载视频内容,为您提供.

阅读和此文章类似的: 全球云计算

HDFS数据写入流程详解网络amingoss的博客-

HDFS数据写入流程详解

1.数据写入流程图：