Բովանդակություն:

Ինչպե՞ս կարող եմ ցուցակից պատրաստել PySpark DataFrame:
Ինչպե՞ս կարող եմ ցուցակից պատրաստել PySpark DataFrame:

Video: Ինչպե՞ս կարող եմ ցուցակից պատրաստել PySpark DataFrame:

Video: Ինչպե՞ս կարող եմ ցուցակից պատրաստել PySpark DataFrame:
Video: «Ես ամաչելու ոչինչ չունեմ». Ցուցակներ պատրաստած տնօրեն 2024, Ապրիլ
Anonim

Ես հետևում եմ այս քայլերին՝ բազմակի ցուցակից DataFrame ստեղծելու համար

  1. Ստեղծել ա ցուցակը tuples. Յուրաքանչյուր tuple պարունակում է տարիքով մարդու անուն:
  2. Ստեղծել մի RDD-ից ցուցակը վերևում:
  3. Փոխակերպել յուրաքանչյուր tuple մի շարք.
  4. Ստեղծել ա DataFrame կիրառելով createDataFrame-ը RDD-ում sqlContext-ի օգնությամբ։

Հաշվի առնելով սա՝ ինչպե՞ս եք DataFrame-ը վերածում Python-ի ցուցակի:

  1. Քայլ 1. Վերափոխեք Dataframe-ը տեղադրված Numpy զանգվածի, օգտագործելով DataFrame.to_numpy(), այսինքն.
  2. Քայլ 2. Փոխակերպեք 2D Numpy զանգվածը ցուցակների ցանկի:
  3. Քայլ 1. Տեղափոխեք տվյալների շրջանակը՝ տողերը որպես սյունակ, իսկ սյունակները՝ տողեր փոխարկելու համար:
  4. Քայլ 2. Վերափոխեք Dataframe-ը տեղադրված Numpy զանգվածի` օգտագործելով DataFrame.to_numpy()

Բացի այդ, ի՞նչ է Spark DataFrame-ը: Ա Spark DataFrame տվյալների բաշխված հավաքածու է, որը կազմակերպված է անվանված սյունակներում, որն ապահովում է ագրեգատների զտման, խմբավորման կամ հաշվարկման գործողություններ և կարող է օգտագործվել Կայծ SQL. Տվյալների շրջանակներ կարող է կառուցվել կառուցվածքային տվյալների ֆայլերից, առկա RDD-ներից, Hive-ի աղյուսակներից կամ արտաքին տվյալների բազաներից:

Նաև գիտեք, թե ինչ է PySpark SQL-ը:

Spark SQL է Կայծ կառուցվածքային տվյալների մշակման մոդուլ: Այն ապահովում է ծրագրավորման աբստրակցիա, որը կոչվում է DataFrames և կարող է նաև հանդես գալ որպես բաշխված SQL հարցումների շարժիչ: Այն հնարավորություն է տալիս չփոփոխված Hadoop Hive հարցումներին մինչև 100 անգամ ավելի արագ գործարկել առկա տեղակայումների և տվյալների վրա:

Արդյո՞ք Spark DataFrames-ը անփոփոխ է:

Մեջ Կայծ դու չես կարող - Տվյալների շրջանակներ են անփոփոխելի . Դուք պետք է օգտագործեք.

Խորհուրդ ենք տալիս: