SPark学习笔记：13 Spark Streaming 的Transform算子和Action算子_sparkstream action算子-程序员宅基地

技术标签：学习 spark Spark 大数据

概述

和RDD类似，DStreams也有一些转换算子用于处输入流中的数据。DStream中有很多转换算子和RDD的转换算子一样，同时也提供了一些额外的算子。此文将总结DStreams的各种算子的使用。

Transformations on DStreams

map

作用在DStream上，用法同RDD的map.一个输入对应一个输出。

flatMap

说明:对源DStream中的每一个元素，作为flatMap函数的输入进行计算处理生成一个新的DStream，一个输入对应一个或者多个输出

val line: ReceiverInputDStream[String] = ssc.socketTextStream("192.168.0.52",8888)
val sensorDs:DStream[String] = line.flatMap(data=>data.split(","))

filter

说明:过滤符合条件的记录，true保留，false过滤

val line: ReceiverInputDStream[String] = ssc.socketTextStream("192.168.0.52",8888)
val sensorDs:DStream[(String,SensorReading)] = line
  .filter(_.nonEmpty)
    .map(data=>{
    
    val arr = data.split(",")
      (arr(0),SensorReading(arr(0),arr(1).toLong,arr(2).toDouble))
})

repartiton

说明:重分区

union

说明:合并两个DStream，DStream的元素的数据类型必须一致

count

说明：统计DStream中元素的个数，和RDD的count操作不同，DStream的count是一个懒加载的操作。

countByValue

说明: 对DStream中的元素按照VALUE进行统计，输出(V,Long)类型的DStream。

reduce

说明: 对DStream[K]中的每个对象进行reduce运算，输出DStream[K]类型的数据

sensorDs.reduce{
     case(first:(String,SensorReading),second:(String,SensorReading))=>
    if(first._2.temperature>second._2.temperature){
    
      first
    }else{
    
      second
    }
}.print()

reduceByKey

说明: 对DStream[K,V]类型的DStream中的元素按照key分组，进行reduce运算，输出DStream[K,V]类型的数据

sensorDs.reduceByKey((first:SensorReading,second:SensorReading)=>{
    
  if(first.temperature>second.temperature){
    
    first
  }else{
    
    second
  }
}).print()

join

说明类似于关系型数据库表的join操作，连接两个DStream，作用在DStream[K,V]和DStream[K,W]的两个DStream上，输出一个DStream[K,(V,W)]类型的DStream。

cogroup

说明作用在两个DStream[K,V]和DStream[K,W]类型的DStream上，输出一个新的DStream[K,SEQ[V],SEQ[W]]类型的DStream。

transform

说明: Transform允许DStream上执行任意的RDD-to-RDD函数。即使这些函数并没有在DStream的API中暴露出来，通过该函数可以很方便的扩展DStream的API。该函数每一批次调度一次。

val conf:SparkConf = new SparkConf()
conf.setMaster("local[*]").setAppName("DStreamTestApp")

val ssc:StreamingContext = new StreamingContext(conf,Seconds(3))
import StreamingContext._
val line: ReceiverInputDStream[String] = ssc.socketTextStream("192.168.0.52",8888)
val sensorDs:DStream[(String,SensorReading)] = line
  .filter(_.nonEmpty)
    .map(data=>{
    
    val arr = data.split(",")
      (arr(0),SensorReading(arr(0),arr(1).toLong,arr(2).toDouble))
})
val transedDs:DStream[SensorReading] = sensorDs.transform(data=>{
    
  //data是一个RDD，可以使用RDD的API进行操作
  val data2:RDD[(String,SensorReading)] = data.filter(el=>{
    
    if(el._2.temperature>60){
    
      true
    }else{
    
      false
    }
  })
  //取最大温度的记录，并转将RDD(String,SensorReading)转换为RDD(SensorReading)
  val data3:RDD[SensorReading] = data2.reduceByKey((first,second)=>{
    
    if(first.temperature>second.temperature){
    
      first
    }else{
    
      second
    }
  }).map(_._2)
  
  //结果返回另一个RDD
  data3
})

该函数的使用场景有很多，比如从文件中读取一个DataSet，然后可以使用该方法与实时流中的DStream中的RDD进程合并等操作。

updateStateByKey

说明: updateStateByKey用于记录历史记录的状态值，有时候我们需要在DStream中跨批次卫华状态（例如WordCount中统计Word的累加值）。针对这种情况，updateStateByKey提供了一个对状态变量的访问。对于键值形式的DStream，给定一个由(键、事件)对个偶成的DStream，并传递一个指定如何根据新的事件更新每个键值对应状态的函数，他可以构建出一个新的DStream。
updateStateByKey操作使得我们可以在用新的信息进行更新时保持任意的状态。只要两步，我们就可以使用这个功能：

定义状态，状态可以是一个任意的数据类型
定义状态更新函数，此函数阐明如何使用之前的状态和来自输入流的新值对状态进行更新。

示例一：wordcount，统计输入流中每个word出现的频率。

import org.apache.spark.SparkConf
import org.apache.spark.streaming.dstream.DStream
import org.apache.spark.streaming.{
    Seconds, StreamingContext}

object StateApp {
    

  def main(args: Array[String]): Unit = {
    
    val conf:SparkConf = new SparkConf()
    conf.setAppName("StateAppTest").setMaster("local[*]")

    //构建StreamContext
    val ssc:StreamingContext = new StreamingContext(conf,Seconds(3))
    
    //使用updateStateByKey算子，需要设定checkpoint的目录
    ssc.checkpoint("./checkpoint")
    
    //构建一个socket文本流
    val strDs:DStream[String] = ssc.socketTextStream("192.168.0.52",8888)
    
    //构建DStream[(String,Long)]键值对类型的DStream
    val paris:DStream[(String,Long)] = strDs.filter(_.nonEmpty)
      .flatMap(data=>{
    data.split(",")}).map((_,1))
    
    //定义一个LONG类型的状态，并定义状态更新函数
    paris.updateStateByKey[Long]((values:Seq[Long],state:Option[Long])=>{
    
     //状态更新函数有两个参数：
     //参数一：是新的批次的以Key分组后的值的序列
     //参数二：是上一批次处理完毕时记录的状态的值
     
     //取上一批次的状态值
      val prev_ttls:Long = state.getOrElse(0L)
      //当前批次的值处理
      val current_ttls = values.foldLeft(0L)((data1,data2)=>data1+data2)
      
      //更新状态，为上一次的值+这一批次的值
      Some(prev_ttls+current_ttls)
    }).print()

    ssc.start()
    ssc.awaitTermination()

  }
}

示例二：记录每一个温度传感器的最高温度

import com.hjt.yxh.hw.sparksql.SensorReading
import org.apache.spark.SparkConf
import org.apache.spark.streaming.dstream.DStream
import org.apache.spark.streaming.{
    Seconds, StreamingContext}

object StateApp {
    

  def main(args: Array[String]): Unit = {
    
    val conf:SparkConf = new SparkConf()
    conf.setAppName("StateAppTest").setMaster("local[*]")

    //构建StreamContext
    val ssc:StreamingContext = new StreamingContext(conf,Seconds(3))
    ssc.checkpoint("./checkpoint")
    val strDs:DStream[String] = ssc.socketTextStream("192.168.0.52",8888)

    val sensorDs:DStream[(String,SensorReading)] =
      strDs.filter(_.nonEmpty)
        .map(data=>{
    
        val arry = data.split(",")
        val sensor = SensorReading(arry(0),arry(1).toLong,arry(2).toDouble)
          (sensor.id,sensor)
      })

      val updateSensorState = (values:Seq[SensorReading],state:Option[SensorReading])=>{
    
        //定义的状态类型是SensorReading
        val prevSensor = state.getOrElse(values.apply(0))
        
        //迭代，记录温度最高的Sensor
        val max = values.foldLeft(prevSensor)((maxSensor,data)=>{
    
          if(data.temperature>maxSensor.temperature){
    
            data
          }else{
    
            maxSensor
          }
        })
        //更新状态
        Some(max)
      }
        
    sensorDs.updateStateByKey[SensorReading](updateSensorState).print()
    ssc.start()
    ssc.awaitTermination()
  }
}

Tips： 包括windows的相关算子在内，以上所有的转换算子都是“懒执行”的，如果整个应用中都没有行动算子，那么相关的计算操作将不会被执行。

Spark Streaming的行动算子 Output Operations On DStream

输出操作允许将DStream中的数据推送到外部系统，比如数据库或者文件系统。由于输出操作实际允许外部系统使用转换后的数据，所以他们会触发所有的转换算子的执行。（同RDD的行动算子）

print

说明: 在Driver节点上打印出DStream的每一批次中的前10条记录。通常用于开发调试阶段。

saveAsTextFiles(prefix,[suffix])

说明: 将DSteam的内容保存为文本文件，每一个批次生成一个文件，文件名以prefix前缀-时间(毫秒)[.fuffix]后缀命名。

saveASObjectFiles(prefix,[suffix])

说明: 将DSteam的内容保存为一个序列化的对象文件，使用java的Object序列化。每一个批次生成一个文件，文件名以prefix前缀-时间(毫秒)[.fuffix]后缀命名。

saveAsHadoopFiles(prefix, [suffix])

说明: 将DSteam的内容保存为hadoop的文件，使用java的Object序列化。每一个批次生成一个文件，文件名以prefix前缀-时间(毫秒)[.fuffix]后缀命名。

foreachRDD(func)

说明：
这是最通用的输出操作，即将函数func用于产生于stream的每一个RDD。其中参数传入的函数 func 应该实现将每一个RDD中数据推送到外部系统，如将RDD存入文件或者通过网络将其写入数据库。通用的输出操作foreachRDD()，它用来对DStream中的RDD运行任意计算。这和 transform()有些类似，都可以让我们访问任意RDD。在foreachRDD()中，可以重用我们在Spark 中实现的所有行动操作。比如，常见的用例之一是把数据写到诸如MySQL的外部数据库中。

//写入到数据库中
sensorStream.foreachRDD(rdd=>{
    
  //在Driver端执行
  //todolist
  println("executor at driver end")

  rdd.foreachPartition(
    rddPartiton=>{
    
      //在Executor端执行
      //创建数据库连接
      println("executor at driver Executor")
        for (elem <- rddPartiton) {
    
        println(elem)
          //每条记录执行一次

      }
      //在Executor端执行，每个Partition执行一次

    }
  )
})

注意：

连接不能写在 driver 层面,因为数据的存取操作是在Executor中完成的，在Driver端创建的连接没办法在Executor中使用。（跨机器或者跨了JVM进程了）

如果写在 foreach则每个RDD中的每一条数据都创建，得不偿失；

增加 foreachPartition，在分区创建（获取）

本文链接：https://blog.csdn.net/wangzhongyudie/article/details/126391904

原作者删帖不实内容删帖广告或垃圾文章投诉

智能推荐

指标体系如何建设_指标体系怎么构建-程序员宅基地

文章浏览阅读1.1w次，点赞11次，收藏115次。几乎所有的数据分析工作都会提到一个词——“建立数据指标体系”，虽然这个词对于大家来说并不陌生，但是数据指标到底是什么以及如何具体的搭建，很多人还是一头雾水的。一、数值指标概述1.1 数值指标价值在了解什么是数据指标之前，我们思考一下：为什么会出现指标？它是为了解决什么问题？人类及科学的发展是与时俱进的，早期为了使自然科学的实验及结果更具统一性及方便标准化衡量，一些标准化的专业指标应运而生。随着人类社会的发展，社会科学也越来越需要统计学来进行事物的衡量，一系列统计学指标也逐步产生了。随着新._指标体系怎么构建

C语言类型转换_lint dint-程序员宅基地

文章浏览阅读138次。（1）：隐式转换定义一个整型常量（int），赋值时却给了一个小数，系统只会将整数部分提取，小数部分舍去（注：是舍去不是四舍五入）。（2）ASCII转换在ASCII表里一个符号或是一个字母就代表一个相应的数字#include<stdio.h>int main{char letter='A';int number=letter;return 0;}A在ASCII表里对应的数字是65，所以当把字符型常量letter的值'A'赋给整型变量number时，所储_lint dint

安装Keras，tensorflow，并将虚拟环境添加到jupyter notebook_scipy库怎么导入jupyter-程序员宅基地

文章浏览阅读4.5k次，点赞8次，收藏69次。安装Keras，tensorflow，并将虚拟环境添加到jupyter notebook_scipy库怎么导入jupyter

ARM开发软件ADS教程_arm.developer.suite使用教程-程序员宅基地

文章浏览阅读4.7k次。ARM开发软件ADS教程 ADS(ARM Developer Suite)是ARM公司推出ARM集成开发环境,操作简单方便,获得广大开发人员的青睐。下面使用ADS v1.2做一个实例教程，帮助大家学会使用ADS编写程序和仿真调试。(使用汇编语言) 首先：下载ADS v1.2版本（英文版）并安装好ADS。安装好ADS之后可以看到开始菜单---所有程序---ARM Developer Suit_arm.developer.suite使用教程

Python的datetime_python 手写datetime-程序员宅基地

文章浏览阅读4.6k次。Python提供了多个内置模块用于操作日期时间，像calendar，time，datetime。time模块我在之前的文章已经有所介绍，它提供的接口与C标准库time.h基本一致。相比于time模块，datetime模块的接口则更直观、更容易调用。今天就来讲讲datetime模块。 datetime模块定义了两个常量：datetime.MINYEAR和datetime.MAXYEAR，分_python 手写datetime

利用Excel数据爬虫_excel爬虫-程序员宅基地

文章浏览阅读2.4k次，点赞2次，收藏8次。URL部分和URL预览填写为目标（需要爬取数据的网址）的URL地址。第三部找到User-Agent的value复制。就可以在Excel表格里看到想要的数据了。1、在Excel里数据里打开自网站。命令超时选择1分钟即可。HTTP请求标头参数。_excel爬虫

随便推点

SpringBoot：起步依赖-自动配置_spring-configuration-metadata.json-程序员宅基地

文章浏览阅读4.2k次，点赞3次，收藏8次。SpringBoot：起步依赖-自动配置_spring-configuration-metadata.json

cocos creator学习笔记1_cocoscreator 子控件居中-程序员宅基地

文章浏览阅读358次。Widgt组件（UI组件）Widget (对齐挂件) 是一个很常用的 UI 布局组件。它能使当前节点自动对齐到父物体的任意位置，或者约束尺寸，让你的游戏可以方便地适配不同的分辨率。Widget (对齐挂件) 是一个很常用的 UI 布局组件。它能使当前节点自动对齐到父物体的任意位置，或者约束尺寸，让你的游戏可以方便地适配不同的分辨率。Top,Left,Right，Buttom对齐对应边界HorizontalCenter水平方向居中VerticalCenter竖直方向居中Align Mode 指_cocoscreator 子控件居中

数据结构 —— 八大排序（超详细图解 & 函数实现）_数据结构排序-程序员宅基地

文章浏览阅读1k次，点赞16次，收藏15次。排序算法主要分为内部排序和外部排序，内部排序是数据记录在内存中进行排序，而外部排序是因排序的数据很大，一次不能容纳全部的排序记录，在排序过程中需要访问外存。常见的内部排序算法有：插入排序、希尔排序、选择排序、冒泡排序、归并排序、快速排序、堆排序、计数排序等。本文将针对上述八大排序算法进行图解剖析。_数据结构排序

《Qt for Symbian》翻译系列之七：第二章开始（1）_qt manual proxy configuration-程序员宅基地

文章浏览阅读3.8k次。第二章开始本章主要介绍应用于Symbian平台的QT开发工具。对于Symbian平台的新手，本章首先通过逐步介绍所需的开发工具及其安装指南进行切入。然后介绍如何在仿真器和移动电话上利用Qt for Symbian创建并运行“Hello World”应用。如果已经有了Symbian开发环境，而且熟悉工具及应用的构建过程，作为对某些SDK版本的补充，在进入2.1.7章节关注Qt for Symbian SDK的安装和介绍之前，建议快速浏览本章的第一部分。注意，本章中某些较长的下载链接利用URL缩_qt manual proxy configuration

前端 - Map对象详解_前端map-程序员宅基地

文章浏览阅读6.8k次。Map对象属性、Map对象和普通对象的区别、Map对象和WeakMap对象的区别_前端map