Spark Streaming还提供了窗口计算,可以在数据的滑动窗口上应用转换。下图说明了此滑动窗口。
如该图所示,每当窗口滑动在源DStream,落入窗口内的源RDDS被组合及操作以产生RDDS的窗口DStream。在这种特定情况下,该操作将应用于数据的最后3个时间单位,并以2个时间单位滑动。这表明任何窗口操作都需要指定两个参数。
这两个参数必须是源DStream的批处理间隔的倍数。
让我们用一个例子来说明窗口操作。每10秒计算最近30秒数据,生成一次字数统计。为此,我们必须在最近30秒数据上使用reduceByKey来对pairsDStream (word, 1)对应用该操作。这是通过操作完成的reduceByKeyAndWindow。
// Reduce last 30 seconds of data, every 10 seconds// windowLength和slideIntervalval windowedWordCounts = pairs.reduceByKeyAndWindow((a:Int,b:Int) => (a + b), Seconds(30), Seconds(10)) 二.常用窗口算子
翻译: