• news_banner

Serviciu

Mecanism de curățare a datelor Spark Streaming
(I) DStream și RDD
După cum știm, calculul Spark Streaming se bazează pe Spark Core, iar nucleul Spark Core este RDD, așa că Spark Streaming trebuie să fie legat și de RDD.Cu toate acestea, Spark Streaming nu permite utilizatorilor să folosească RDD în mod direct, ci rezuma un set de concepte DStream, DStream și RDD sunt relații incluzive, îl puteți înțelege ca model de decorare în Java, adică DStream este o îmbunătățire a RDD, dar comportamentul este similar cu RDD.
Ambele DStream și RDD au mai multe condiții.
(1) au acțiuni de transformare similare, cum ar fi map, reduceByKey etc., dar și unele unice, cum ar fi Window, mapWithStated etc.
(2) toate au acțiuni de acțiune, cum ar fi foreachRDD, count etc.
Modelul de programare este consistent.
(B) Introducerea DStream în Spark Streaming
DStream conține mai multe clase.
(1) Clase de surse de date, cum ar fi InputDStream, specifice DirectKafkaInputStream etc.
(2) Clase de conversie, de obicei MappedDStream, ShuffledDStream
(3) clase de ieșire, de obicei, cum ar fi ForEachDStream
Din cele de mai sus, datele de la început (intrare) până la sfârșit (ieșire) sunt realizate de sistemul DStream, ceea ce înseamnă că, în mod normal, utilizatorul nu poate genera și manipula direct RDD-uri, ceea ce înseamnă că DStream are posibilitatea și obligația de a fi responsabil pentru ciclul de viață al RDD.
Cu alte cuvinte, Spark Streaming are uncuratare automatafuncţie.
(iii) Procesul de generare a RDD în Spark Streaming
Fluxul de viață al RDD-urilor în Spark Streaming este dur, după cum urmează.
(1) În InputDStream, datele primite sunt transformate în RDD, cum ar fi DirectKafkaInputStream, care generează KafkaRDD.
(2) apoi prin MappedDStream și alte conversii de date, această dată se numește direct RDD corespunzător metodei hărții pentru conversie
(3) În operațiunea clasei de ieșire, numai când RDD-ul este expus, puteți lăsa utilizatorul să efectueze stocarea corespunzătoare, alte calcule și alte operațiuni.