Բովանդակություն:

Ի՞նչ է հավաքածուն PySpark-ը:
Ի՞նչ է հավաքածուն PySpark-ը:

Video: Ի՞նչ է հավաքածուն PySpark-ը:

Video: Ի՞նչ է հավաքածուն PySpark-ը:
Video: Statistics with Python! Variance and Standard Deviation 2024, Մայիս
Anonim

Հավաքել (Գործողություն) - Վերադարձեք տվյալների հավաքածուի բոլոր տարրերը որպես զանգված վարորդի ծրագրում: Սա սովորաբար օգտակար է զտիչից կամ այլ գործողությունից հետո, որը վերադարձնում է տվյալների բավական փոքր ենթաբազմություն:

Այս կերպ, ի՞նչ է PySpark-ը:

PySpark Ծրագրավորում. PySpark Apache Spark-ի և Python-ի համագործակցությունն է: Apache Spark-ը բաց կոդով կլաստերային հաշվողական շրջանակ է, որը կառուցված է արագության, օգտագործման հեշտության և հոսքային վերլուծության շուրջ, մինչդեռ Python-ը ընդհանուր նշանակության, բարձր մակարդակի ծրագրավորման լեզու է:

Նաև ի՞նչ է քարտեզը PySpark-ում: Կայծ Քարտեզ Փոխակերպում. Ա քարտեզ Apache Spark-ում փոխակերպման գործողություն է: Այն կիրառվում է RDD-ի յուրաքանչյուր տարրի վրա և այն վերադարձնում է արդյունքը որպես նոր RDD: Քարտեզ փոխակերպում է N երկարությամբ RDD-ն N երկարությամբ մեկ այլ RDD-ի: Մուտքային և ելքային RDD-ները սովորաբար կունենան նույն թվով գրառումներ:

Այս կերպ, ի՞նչ է SparkContext-ը PySpark-ում:

PySpark - SparkContext . Գովազդներ. SparkContext ցանկացած մուտքի կետ է կայծ ֆունկցիոնալությունը։ Երբ մենք վարում ենք ցանկացած Կայծ հավելվածը, սկսվում է վարորդական ծրագիր, որն ունի հիմնական գործառույթը և ձեր SparkContext սկսվում է այստեղ: Վարորդների ծրագիրը այնուհետև գործարկում է կատարողների ներսում աշխատող հանգույցների վրա:

Ինչպե՞ս կարող եմ ստուգել PySpark-ի տարբերակը:

2 Պատասխաններ

  1. Բացեք Spark shell Terminal-ը և մուտքագրեք հրամանը:
  2. sc.version Կամ spark-submit --տարբերակ:
  3. Ամենահեշտ ձևը պարզապես հրամանի տողում գործարկելն է «spark-shell»: Այն կցուցադրի.
  4. Spark-ի ընթացիկ ակտիվ տարբերակը:

Խորհուրդ ենք տալիս: