Բովանդակություն:

Կարո՞ղ եմ Python-ը գործարկել Hadoop-ում:
Կարո՞ղ եմ Python-ը գործարկել Hadoop-ում:

Video: Կարո՞ղ եմ Python-ը գործարկել Hadoop-ում:

Video: Կարո՞ղ եմ Python-ը գործարկել Hadoop-ում:
Video: Data Science with Python! Analyzing File Types from Avro to Stata 2024, Նոյեմբեր
Anonim

Ծրագրավորման լեզուների միջև ընտրություն, ինչպիսիք են Java-ն, Scala-ն և Պիթոն համար Hadoop էկոհամակարգը, որն օգտագործում են մշակողների մեծ մասը Պիթոն տվյալների վերլուծության առաջադրանքների համար աջակցող գրադարանների պատճառով: Hadoop հոսքը թույլ է տալիս օգտվողին ստեղծել և կատարել Քարտեզագրել/կրճատել աշխատատեղերը ցանկացած սկրիպտով կամ գործարկվող տարբերակով, որպես քարտեզագրող կամ/կամ կրճատող:

Նմանապես, հարցնում են, թե ինչպես է Python-ը միանում Hadoop-ին:

Hadoop HDFS-ի միացում Python-ի հետ

  1. Քայլ 1. Համոզվեք, որ Hadoop HDFS-ը ճիշտ է աշխատում: Բացեք Terminal/Command Prompt, ստուգեք, արդյոք HDFS-ն աշխատում է՝ օգտագործելով հետևյալ հրամանները. start-dfs.sh:
  2. Քայլ 2. Տեղադրեք libhdfs3 գրադարանը:
  3. Քայլ 3. Տեղադրեք hdfs3 գրադարանը:
  4. Քայլ 4. Ստուգեք, արդյոք կապը HDFS-ի հետ հաջող է:

Նմանապես, ի՞նչ է Hadoop-ը Python-ում: Պիթոն Ընդհանուր նշանակության ամբողջական ծրագրավորման լեզու է, որը կարող է օգտագործվել ծրագրավորման աշխարհում գրեթե ամեն ինչ անելու համար: Hadoop մեծ տվյալների շրջանակ է, որը գրված է Java-ում, որպեսզի զբաղվի տվյալների հսկայական ծավալներով: Կան բազմաթիվ առցանց ինստիտուտներ, որոնք Hadoop հետ Պիթոն դասընթացներ, ինչպիսիք են՝ Analytixlabs. Էդուրիկա.

Հետագայում հարցն այն է, թե ինչպես կարող եմ վարել Python MapReduce ծրագիրը Hadoop-ում:

Hadoop MapReduce ծրագիր գրել Python-ում

  1. Մոտիվացիա.
  2. Այն, ինչ մենք ուզում ենք անել.
  3. Նախադրյալներ.
  4. Python MapReduce Code. Քարտեզի քայլը՝ mapper.py: Կրճատել քայլը՝ reducer.py:
  5. Python կոդը գործարկել Hadoop-ում: Ներբեռնեք մուտքագրման տվյալների օրինակ: Պատճենեք տեղական օրինակի տվյալները HDFS-ում:
  6. Բարելավված Mapper և Reducer կոդ՝ օգտագործելով Python կրկնիչներ և գեներատորներ: mapper.py. reducer.py.

Ինչ է Hadoop Streaming բանկա:

Hadoop բաշխումն ապահովում է Java կոմունալ, որը կոչվում է Hadoop Streaming . Այն փաթեթավորված է ա բանկա ֆայլ։ Հետ Hadoop Streaming , մենք կարող ենք ստեղծել և գործարկել Map Reduce-ի աշխատատեղերը գործարկվող սցենարով: Hadoop Streaming մի օգտակար ծրագիր է, որը գալիս է Hadoop բաշխում. Այն կարող է օգտագործվել մեծ տվյալների վերլուծության համար ծրագրեր իրականացնելու համար:

Խորհուրդ ենք տալիս: