Spark SQL 快速入门系列(4) | RDD、DataFrame、DataSet三者的共性和区别不温卜火-

10 八月

星期一, 10 八月 2020 22:30 Last Updated on 星期一, 10 八月 2020 22:30 0 Comments

大家好，我是不温卜火，是一名计算机学院大数据专业大二的学生，昵称来源于成语—不温不火，本意是希望自己性情温和。作为一名互联网行业的小白，博主写博客一方面是为了记录自己的学习过程，另一方面是总结自己所犯的错误希望能够帮助到很多和自己一样处于起步阶段的萌新。但由于水平有限，博客中难免会有一些错误出现，有纰漏之处恳请各位大佬不吝赐教！暂时只有csdn这一个平台，博客主页：https://buwenbuhuo.blog.csdn.net/

本片博文为大家带来的是RDD、DataFrame、DataSet三者的共性和区别。
Spark SQL 快速入门系列(4) | RDD、DataFrame、DataSet三者的共性和区别不温卜火-

一. 三者的共性

RDD、DataFrame、Dataset全都是 Spark 平台下的分布式弹性数据集，为处理超大型数据提供便利
三者都有惰性机制，在进行创建、转换，如map方法时，不会立即执行，只有在遇到Action如foreach时，三者才会开始遍历运算。
三者都会根据 Spark 的内存情况自动缓存运算，这样即使数据量很大，也不用担心会内存溢出
三者都有partition的概念
三者有许多共同的函数，如map, filter，排序等
在对 DataFrame和Dataset进行操作许多操作都需要这个包进行支持 import spark.implicits._
DataFrame和Dataset均可使用模式匹配获取各个字段的值和类型

// DataFrame:  testDF.map{ case Row(col1:String,col2:Int)=> println(col1);println(col2)         col1       case _=> "" } // Dataset: case class Coltest(col1:String,col2:Int)extends Serializable //定义字段名和类型     testDS.map{ case Coltest(col1:String,col2:Int)=> println(col1);println(col2)         col1       case _=> "" }

二. 三者的区别

2.1 RDD

RDD一般和spark mlib同时使用
RDD不支持sparksql操作

2.2 DataFrame

与RDD和Dataset不同，DataFrame每一行的类型固定为Row，每一列的值没法直接访问，只有通过解析才能获取各个字段的值，

testDF.foreach{   line =>     val col1=line.getAs[String]("col1")     val col2=line.getAs[String]("col2") }

DataFrame与DataSet一般不与 spark mlib 同时使用
DataFrame与DataSet均支持 SparkSQL 的操作，比如select，groupby之类，还能注册临时表/视窗，进行 sql 语句操作

dataDF.createOrReplaceTempView("tmp") spark.sql("select  ROW,DATE from tmp where DATE is not null order by DATE").show(100,false)

DataFrame与DataSet支持一些特别方便的保存方式，比如保存成csv，可以带上表头，这样每一列的字段名一目了然

//保存 val saveoptions = Map("header" -> "true", "delimiter" -> "t", "path" -> "hdfs://hadoop002:9000/test") datawDF.write.format("com.buwenbuhuo.spark.csv").mode(SaveMode.Overwrite).options(saveoptions).save() //读取 val options = Map("header" -> "true", "delimiter" -> "t", "path" -> "hdfs://hadoop002:9000/test") val datarDF= spark.read.options(options).format("com.buwenbuhuo.spark.csv").load()

利用这样的保存方式，可以方便的获得字段名和列的对应，而且分隔符（delimiter）可以自由指定。

2.3 DataSet

Dataset和DataFrame拥有完全相同的成员函数，区别只是每一行的数据类型不同。 DataFrame其实就是DataSet的一个特例
DataFrame也可以叫Dataset[Row],每一行的类型是Row，不解析，每一行究竟有哪些字段，各个字段又是什么类型都无从得知，只能用上面提到的getAS方法或者共性中的第七条提到的模式匹配拿出特定字段。而Dataset中，每一行是什么类型是不一定的，在自定义了case class之后可以很自由的获得每一行的信息

case class Coltest(col1:String,col2:Int)extends Serializable //定义字段名和类型 /**  rdd  ("a", 1)  ("b", 1)  ("a", 1) **/ val test: Dataset[Coltest]=rdd.map{line=> Coltest(line._1,line._2) }.toDS test.map{       line=> println(line.col1) println(line.col2) }

可以看出，Dataset在需要访问列中的某个字段时是非常方便的，然而，如果要写一些适配性很强的函数时，如果使用Dataset，行的类型又不确定，可能是各种case class，无法实现适配，这时候用DataFrame即Dataset[Row]就能比较好的解决问题

三. 三者的互相转换

Spark SQL 快速入门系列(4) | RDD、DataFrame、DataSet三者的共性和区别不温卜火-
本次的就到这里了,

Spark SQL 快速入门系列(4) | RDD、DataFrame、DataSet三者的共性和区别不温卜火-

好书不厌读百回，熟读课思子自知。而我想要成为全场最靓的仔，就必须坚持通过学习来获取更多知识，用知识改变命运，用博客见证成长，用行动证明我在努力。
如果我的博客对你有帮助、如果你喜欢我的博客内容，请“” “评论”“”一键三连哦！听说的人运气不会太差，每一天都会元气满满呦！如果实在要白嫖的话，那祝你开心每一天，欢迎常来我博客看看。
码字不易，大家的支持就是我坚持下去的动力。后不要忘了关注我哦！

Spark SQL 快速入门系列(4) | RDD、DataFrame、DataSet三者的共性和区别不温卜火-

32
评论 35
x
海报

扫一扫，海报
1
手机看

到微信朋友圈

x

扫一扫，手机阅读
- 打赏
打赏

不温卜火

“你的鼓励将是我创作的最大动力”

5C币 10C币 20C币 50C币 100C币 200C币

确定
关注

weixin_43087634的博客

11-23 Spark SQL 快速入门系列(4) | RDD、DataFrame、DataSet三者的共性和区别不温卜火- 5069

RDD和DataFrame和DataSet三者间的区别

RDD vs DataFrames vs DataSet在SparkSQL中Spark为我们提供了两个新的抽象，分别是DataFrame和DataSet。他们和RDD有什么区别呢？首先从版本的产生上来看：RDD (Spark1.0) —> Dataframe(Spark1.3) —> Dataset(Spark1.6)如果同样的数据都给到这三个数据结构，他们分别计算之后，……

SmallScorpion的博客

04-22 Spark SQL 快速入门系列(4) | RDD、DataFrame、DataSet三者的共性和区别不温卜火- 84

Spark–SQL中DataFrame与DataSet的互操作|DataFrame转为DataSet|Dataset转为DataFrame|RDD、DataFrame和DataSet之间的关系

DataFrame转为DataSet使用as方法，转成Dataset，这在数据类型是DataFrame又需要针对各个字段处理时极为方便。在使用一些特殊的操作时，一定要加上 import spark.implicits._ 不然toDF、toDS无法使用。val df = spark.read.json("/opt/module/spark-local/examples/src/main/r……

本页所有内容来自官方网站 https://www.imapbox.com 新闻来源：互联网搜索引擎和新闻站

本网页所有图片由 ImageBox 图片批量下载器,网页图片批量下载专家,网页图片批量下载器,获取到文章图片，下载并得到。

ImageBox 图片批量下载器工具地址: 网页图片批量下载工具-最新版本下载

非凡下载站地址：https://www.crsky.com/soft/35838.html

本网页所有视频内容由 imoviebox边看边下-网页视频下载, iurlBox网页地址收藏管理器下载并得到。

ImovieBox网页视频下载器下载地址: ImovieBox网页视频下载器-最新版本下载

本文章由: imapbox邮箱云存储,邮箱网盘,ImageBox 图片批量下载器,网页图片批量下载专家,网页图片批量下载器,获取到文章图片,imoviebox网页视频批量下载器,下载视频内容,为您提供.

阅读和此文章类似的: 全球云计算

Spark SQL 快速入门系列(4) | RDD、DataFrame、DataSet三者的共性和区别不温卜火-

目录

一. 三者的共性

二. 三者的区别

2.1 RDD

2.2 DataFrame

2.3 DataSet

三. 三者的互相转换

RDD和DataFrame和DataSet三者间的区别

Spark–SQL中DataFrame与DataSet的互操作|DataFrame转为DataSet|Dataset转为DataFrame|RDD、DataFrame和DataSet之间的关系

文章目录

近期文章

官方链接

关于我们

软件产品

事业方向

联系我们

ImapBox Technology Research Group

Spark SQL 快速入门系列(4) | RDD、DataFrame、DataSet三者的共性和区别不温卜火-

目录

一. 三者的共性

二. 三者的区别

2.1 RDD

2.2 DataFrame

2.3 DataSet

三. 三者的互相转换

RDD和DataFrame和DataSet三者间的区别

Spark–SQL中DataFrame与DataSet的互操作|DataFrame转为DataSet|Dataset转为DataFrame|RDD、DataFrame和DataSet之间的关系

文章目录

近期文章

官方链接

关于我们

软件产品

事业方向

联系我们

ImapBox Technology Research Group

登录