Ի՞նչ է RDD-ն Scala-ում:
Ի՞նչ է RDD-ն Scala-ում:

Video: Ի՞նչ է RDD-ն Scala-ում:

Video: Ի՞նչ է RDD-ն Scala-ում:
Video: Rearrange #74 Արամ Ջիվանյան - Ի՞նչ է բիթքոինը, «NFT»-ն և ի՞նչ է սպասվում մեզ ապագայում 2024, Մայիս
Anonim

Ճկուն բաշխված տվյալների հավաքածուներ ( RDD ) Spark-ի տվյալների հիմնարար կառուցվածքն է: Դա օբյեկտների անփոփոխ բաշխված հավաքածու է։ RDD-ներ կարող է պարունակել ցանկացած տեսակի Python, Java կամ Սկալա օբյեկտներ, ներառյալ օգտագործողի կողմից սահմանված դասերը: Ձևականորեն, ան RDD գրառումների միայն կարդալու, բաժանված հավաքածու է:

Նաև հարց է ծագում, ո՞րն է տարբերությունը RDD-ի և DataFrame-ի միջև:

RDD – RDD տվյալների տարրերի բաշխված հավաքածու է, որը տարածված է բազմաթիվ մեքենաների վրա մեջ կլաստեր. RDD-ներ Java կամ Scala օբյեկտների մի շարք են, որոնք ներկայացնում են տվյալներ: DataFrame – Ա DataFrame տվյալների բաշխված հավաքածու է, որը կազմակերպված է անվանված սյունակներում: Այն հայեցակարգային առումով հավասար է աղյուսակի մեջ հարաբերական տվյալների բազա.

Ավելին, ինչպե՞ս է բաշխվում RDD-ն: Ճկուն Բաշխված Տվյալների հավաքածուներ ( RDD-ներ ) Դրանք ա բաշխված օբյեկտների հավաքածու, որոնք պահվում են հիշողության մեջ կամ կլաստերի տարբեր մեքենաների սկավառակների վրա։ Մի սինգլ RDD կարելի է բաժանել մի քանի տրամաբանական միջնորմների, որպեսզի այդ բաժանմունքները կարողանան պահվել և մշակվել կլաստերի տարբեր մեքենաների վրա:

ինչպե՞ս է աշխատում կայծային RDD-ն:

RDD-ներ մեջ Կայծ ունեն գրառումների հավաքածու, որոնք պարունակում են միջնորմներ: RDD-ներ մեջ Կայծ բաժանված են տվյալների փոքր տրամաբանական կտորների, որոնք հայտնի են որպես միջնորմներ, երբ գործողությունը կատարվում է, յուրաքանչյուր բաժանման համար առաջադրանք կգործարկվի: Միջնորմները ներսում RDD-ներ զուգահեռության հիմնական միավորներն են։

Ո՞րն է ավելի արագ RDD կամ DataFrame:

RDD - Խմբավորման և ագրեգացման պարզ գործողություններ կատարելիս RDD API-ն ավելի դանդաղ է: DataFrame - Հետախուզական վերլուծություն կատարելիս, տվյալների ագրեգացված վիճակագրություն ստեղծելիս, տվյալների շրջանակներ են ավելի արագ . RDD - Երբ դուք ցանկանում եք ցածր մակարդակի փոխակերպում և գործողություններ, մենք օգտագործում ենք RDD-ներ . Նաև, երբ մեզ անհրաժեշտ են բարձր մակարդակի աբստրակցիաներ, մենք օգտագործում ենք RDD-ներ.

Խորհուրդ ենք տալիս: