Spark Core快速入门系列(4) | ＜Action＞行动算子转换算子不温卜火-

25 七月

星期六, 25 七月 2020 07:50 Last Updated on 星期六, 25 七月 2020 07:50 0 Comments

大家好，我是不温卜火，是一名计算机学院大数据专业大二的学生，昵称来源于成语—不温不火，本意是希望自己性情温和。作为一名互联网行业的小白，博主写博客一方面是为了记录自己的学习过程，另一方面是总结自己所犯的错误希望能够帮助到很多和自己一样处于起步阶段的萌新。但由于水平有限，博客中难免会有一些错误出现，有纰漏之处恳请各位大佬不吝赐教！暂时只有csdn这一个平台，博客主页：https://buwenbuhuo.blog.csdn.net/

此篇为大家带来的是＜Action> 行动算子转换算子
Spark Core快速入门系列(4) | ＜Action＞行动算子转换算子不温卜火-

RDD的 Action 操作

1. reduce(func)

1.作用:

通过func函数聚集RDD中的所有元素，先聚合分区内数据，再聚合分区间数据。

2. 案例：创建一个RDD，将所有元素聚合得到结果。

// 1.创建一个RDD[Int] scala> val rdd1 = sc.makeRDD(1 to 10,2) rdd1: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[85] at makeRDD at <console>:24 // 2.聚合RDD[Int]所有元素 scala> rdd1.reduce(_+_) res50: Int = 55 // 3.创建一个RDD[String] scala> val rdd2 = sc.makeRDD(Array(("a",1),("a",3),("c",3),("d",5))) rdd2: org.apache.spark.rdd.RDD[(String, Int)] = ParallelCollectionRDD[86] at makeRDD at <console>:24 // 4.聚合RDD[String]所有数据 scala> rdd2.reduce((x,y)=>(x._1 + y._1,x._2 + y._2)) res51: (String, Int) = (adca,12)

2. collect()

1.作用:

在驱动程序中，以数组的形式返回数据集的所有元素。

2. 案例：创建一个RDD，并将RDD内容收集到Driver端打印

// 1.创建一个RDD scala> val rdd = sc.parallelize(1 to 10) rdd: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[0] at parallelize at <console>:24 // 2.将结果收集到Driver端 scala> rdd.collect res0: Array[Int] = Array(1, 2, 3, 4, 5, 6, 7, 8, 9, 10)

3. count()

1.作用:

返回RDD中元素的个数

2. 案例：创建一个RDD，统计该RDD的条数

// 1.创建一个RDD scala> val rdd = sc.parallelize(1 to 10) rdd: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[0] at parallelize at <console>:24 // 2.统计该RDD的条数 scala> rdd.count res1: Long = 10

4. first()

1.作用:

返回 RDD 中的第一个元素. 类似于take(1).

2. 案例：创建一个RDD，返回该RDD中的第一个元素

// 1.创建一个RDD scala> val rdd = sc.parallelize(1 to 10) rdd: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[0] at parallelize at <console>:24 // 2.统计该RDD的条数 scala> rdd.first res2: Int = 1

5.take(n)

1.作用:

返回一个由RDD的前n个元素组成的数组
take 的数据也会拉到 driver 端, 应该只对小数据集使用

2. 案例：创建一个RDD，统计该RDD的条数

// 1.创建一个RDD scala> val rdd = sc.parallelize(Array(2,5,4,6,8,3)) rdd: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[2] at parallelize at <console>:24 // 2.统计该RDD的条数 scala> rdd.take(3) res10: Array[Int] = Array(2, 5, 4)

6.takeOrdered(n)

1.作用:

返回排序后的前 n 个元素, 默认是升序排列.数据也会拉到 driver 端

2. 案例：创建一个RDD，统计该RDD的条数

// 1.创建一个RDD scala> val rdd = sc.parallelize(Array(2,5,4,6,8,3)) rdd: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[2] at parallelize at <console>:24 // 2.统计该RDD的条数 scala> rdd.takeOrdered(3) res18: Array[Int] = Array(2, 3, 4)

7.aggregate

1.参数

def aggregate[U: ClassTag](zeroValue: U)(seqOp: (U, T) => U, combOp: (U, U) => U): U

2.作用:

aggregate函数将每个分区里面的元素通过seqOp和初始值进行聚合，然后用combine函数将每个分区的结果和初始值(zeroValue)进行combine操作。这个函数最终返回的类型不需要和RDD中元素类型一致。

注意:
zeroValue 分区内聚合和分区间聚合的时候各会使用一次.

3. 案例：创建一个RDD，将所有元素相加得到结果

// 1.创建一个RDD scala> var rdd1 = sc.makeRDD(1 to 10,2) rdd1: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[88] at makeRDD at <console>:24 // 2.将该RDD所有元素相加得到结果 scala> rdd.aggregate(0)(_+_,_+_) res22: Int = 55

8.fold

1.作用:

折叠操作，aggregate的简化操作，seqop和combop一样的时候,可以使用fold

2. 案例：创建一个RDD，将所有元素相加得到结果

// 1.创建一个RDD scala> var rdd1 = sc.makeRDD(1 to 10,2) rdd1: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[88] at makeRDD at <console>:24 // 2.将该RDD所有元素相加得到结果 scala> rdd.fold(0)(_+_) res24: Int = 55

9.saveAsTextFile(path)

作用:
将数据集的元素以textfile的形式保存到HDFS文件系统或者其他支持的文件系统，对于每个元素，Spark 将会调用toString方法，将它装换为文件中的文本

10.saveAsSequenceFile(path)

作用:
将数据集中的元素以 Hadoop sequencefile 的格式保存到指定的目录下，可以使 HDFS 或者其他 Hadoop 支持的文件系统。

11.saveAsObjectFile(path)

作用:
用于将 RDD 中的元素序列化成对象，存储到文件中。

12.countByKey()

1.作用:

针对(K,V)类型的RDD，返回一个(K,Int)的map，表示每一个key对应的元素个数。

2. 案例：创建一个PairRDD，统计每种key的个数

// 1.创建一个PairRDD scala> val rdd = sc.parallelize(List((1,3),(1,2),(1,4),(2,3),(3,6),(3,8)),3) rdd: org.apache.spark.rdd.RDD[(Int, Int)] = ParallelCollectionRDD[95] at parallelize at <console>:24 // 2.统计每种key的个数 scala> rdd.countByKey res63: scala.collection.Map[Int,Long] = Map(3 -> 2, 1 -> 3, 2 -> 1)

13.foreach(func)

1.作用:

在数据集的每一个元素上，运行函数func进行更新。

2. 案例：创建一个RDD，对每个元素进行打印

// 1.创建一个RDD scala> var rdd = sc.makeRDD(1 to 5,2) rdd: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[107] at makeRDD at <console>:24 // 2.对该RDD每个元素进行打印 scala> rdd.foreach(println(_)) 3 4 5 1 2

本次的就到这里了,

Spark Core快速入门系列(4) | ＜Action＞行动算子转换算子不温卜火-

好书不厌读百回，熟读课思子自知。而我想要成为全场最靓的仔，就必须坚持通过学习来获取更多知识，用知识改变命运，用博客见证成长，用行动证明我在努力。
如果我的博客对你有帮助、如果你喜欢我的博客内容，请“” “评论”“”一键三连哦！听说的人运气不会太差，每一天都会元气满满呦！如果实在要白嫖的话，那祝你开心每一天，欢迎常来我博客看看。
码字不易，大家的支持就是我坚持下去的动力。后不要忘了关注我哦！

Spark Core快速入门系列(4) | ＜Action＞行动算子转换算子不温卜火-

50
评论 45
x
海报

扫一扫，海报
手机看

到微信朋友圈

x

扫一扫，手机阅读
- 打赏
打赏

不温卜火

“你的鼓励将是我创作的最大动力”

5C币 10C币 20C币 50C币 100C币 200C币

确定
关注

未知的风fly

07-11 Spark Core快速入门系列(4) | ＜Action＞行动算子转换算子不温卜火- 2295

初识sparkCore

一、概念RDD(Resilient Distributed Dataset)，弹性分布式数据集，是分布式内存的一个抽象概念。二、RDD的五大特性1、RDD是由一系列的partition组成的。partition一般有三种方式产生（1）从Scala集合中创建，通过调用SparkContext#makeRDD或SparkContext#par……

qq_43791724的博客

04-04 Spark Core快速入门系列(4) | ＜Action＞行动算子转换算子不温卜火- 51

SparkCore快速入门及介绍

什么是RDD弹性、分布式、数据集（数据存储在内存）弹性的，RDD中的数据可以保存在内存中或磁盘里面分布式存储，可以用于分布式计算集合，可以存放很多元素一个不可变，可分区，里面的元素可并行计算的集合RDD的主要属性数据集的基本组成但是一个组分片或一个分区列表，每个分片都会被一个计算任务处理，分区数量决定并发度。用户可以在创建RDD是指定RDD的分片个数，如果没有指定，那么久采用默……

本页所有内容来自官方网站 https://www.imapbox.com 新闻来源：互联网搜索引擎和新闻站

本网页所有图片由 ImageBox 图片批量下载器,网页图片批量下载专家,网页图片批量下载器,获取到文章图片，下载并得到。

ImageBox 图片批量下载器工具地址: 网页图片批量下载工具-最新版本下载

非凡下载站地址：https://www.crsky.com/soft/35838.html

本网页所有视频内容由 imoviebox边看边下-网页视频下载, iurlBox网页地址收藏管理器下载并得到。

ImovieBox网页视频下载器下载地址: ImovieBox网页视频下载器-最新版本下载

本文章由: imapbox邮箱云存储,邮箱网盘,ImageBox 图片批量下载器,网页图片批量下载专家,网页图片批量下载器,获取到文章图片,imoviebox网页视频批量下载器,下载视频内容,为您提供.

阅读和此文章类似的: 全球云计算

Spark Core快速入门系列(4) | ＜Action＞行动算子转换算子不温卜火-

目录

RDD的 Action 操作

1. reduce(func)

2. collect()

3. count()

4. first()

5.take(n)

6.takeOrdered(n)

7.aggregate

8.fold

9.saveAsTextFile(path)

10.saveAsSequenceFile(path)

11.saveAsObjectFile(path)

12.countByKey()

13.foreach(func)

初识sparkCore

SparkCore快速入门及介绍

文章目录

近期文章

官方链接

关于我们

软件产品

事业方向

联系我们

ImapBox Technology Research Group

Spark Core快速入门系列(4) | ＜Action＞ 行动算子转换算子不温卜火-

目录

RDD的 Action 操作

1. reduce(func)

2. collect()

3. count()

4. first()

5.take(n)

6.takeOrdered(n)

7.aggregate

8.fold

9.saveAsTextFile(path)

10.saveAsSequenceFile(path)

11.saveAsObjectFile(path)

12.countByKey()

13.foreach(func)

初识sparkCore

SparkCore快速入门及介绍

文章目录

近期文章

官方链接

关于我们

软件产品

事业方向

联系我们

ImapBox Technology Research Group

登录

Spark Core快速入门系列(4) | ＜Action＞行动算子转换算子不温卜火-