Video: Ի՞նչ է AWS MapReduce-ը:
2024 Հեղինակ: Lynn Donovan | [email protected]. Վերջին փոփոխված: 2023-12-15 23:48
Amazon Elastic MapReduce (EMR)-ը Amazon վեբ ծառայություններ է ( AWS ) մեծ տվյալների մշակման և վերլուծության գործիք: Amazon EMR-ը մեծ տվյալներ է մշակում վիրտուալ սերվերների Hadoop կլաստերի միջոցով՝ Amazon Elastic Compute Cloud (EC2) և Amazon Simple Storage Service (S3):
Այս կերպ, ինչպե՞ս է աշխատում AWS EMR-ը:
Ծառայությունը սկսում է հաճախորդի կողմից սահմանված քանակով Amazon EC2 օրինակներ, որոնք բաղկացած են մեկ վարպետից և բազմաթիվ այլ հանգույցներից: Amazon EMR գործարկում է Hadoop ծրագրակազմը այս դեպքերի վրա: Հիմնական հանգույցը մուտքային տվյալները բաժանում է բլոկների և բաշխում է բլոկների մշակումը մյուս հանգույցներին:
Բացի վերևից, ո՞րն է տարբերությունը ec2-ի և EMR-ի միջև: Ի տարբերություն EMR , EC2 չի դասակարգում ստրուկ հանգույցները հիմնական և առաջադրանքային հանգույցների: Սա մեծացնում է HDFS տվյալների կորստի ռիսկը հանգույցի հեռացման/կորստի դեպքում: EC2 օգտագործում է Apache գրադարաններ (s3a) s3-ի տվյալների մուտք գործելու համար: Մյուս կողմից, EMR օգտագործում է AWS սեփական ծածկագիրը՝ s3-ին ավելի արագ մուտք ունենալու համար:
Բացի այդ, AWS EMR-ն ամբողջությամբ կառավարվա՞ծ է:
Amazon Էլաստիկ քարտեզի կրճատում ( EMR ) է լիովին կառավարվում է Hadoop և Spark հարթակ-ից Amazon Վեբ ծառայություն ( AWS ) Հետ EMR , AWS հաճախորդները կարող են արագ պտտել բազմահանգույց Hadoop կլաստերները՝ մեծ տվյալների աշխատանքային բեռները մշակելու համար:
AWS-ն օգտագործում է Hadoop?
Amazon Վեբ ծառայություններ օգտագործում է բաց կոդով Apache-ն Hadoop բաշխված հաշվողական տեխնոլոգիան հեշտացնելու համար մեծ քանակությամբ հաշվողական հզորություն մուտք գործելը տվյալների ինտենսիվ առաջադրանքներ կատարելու համար: Hadoop Google-ի MapReduce-ի բաց կոդով տարբերակը, արդեն օգտագործվում է այնպիսի ընկերությունների կողմից, ինչպիսիք են Yahoo-ն և Facebook-ը:
Խորհուրդ ենք տալիս:
Ի՞նչ է ECU AWS-ը:
Amazon EC2 EC2-ն օգտագործում է EC2 Compute Unit (ECU) տերմինը՝ նկարագրելու CPU ռեսուրսները յուրաքանչյուր օրինակի չափի համար, որտեղ մեկ ECU-ն ապահովում է 1.0-1.2 ԳՀց 2007 Opteron կամ 2007 Xeon պրոցեսորի համարժեք CPU հզորությունը։
Ինչպե՞ս սպանել MapReduce-ի աշխատանքը:
Hadoop job -kill job_id և yarn application -kill application_id երկու հրամաններն էլ օգտագործվում են Hadoop-ով աշխատող աշխատանքը սպանելու համար: Եթե դուք օգտագործում եք MapReduce տարբերակը 1 (MR V1) և ցանկանում եք սպանել Hadoop-ով աշխատող աշխատանքը, ապա կարող եք օգտագործել hadoop job -kill job_id՝ աշխատանքը սպանելու համար, և այն կսպանի բոլոր աշխատանքները (ինչպես գործարկվող, այնպես էլ հերթագրված)
Ի՞նչ է MapReduce ծրագրավորման մոդելը:
MapReduce. Վիքիպեդիայից՝ ազատ հանրագիտարանից։ MapReduce-ը ծրագրավորման մոդել է և հարակից իրականացում մեծ տվյալների հավաքածուների մշակման և ստեղծման համար՝ զուգահեռ, բաշխված ալգորիթմով կլաստերի վրա:
Որո՞նք են կազմաձևման հիմնական պարամետրերը, որոնք օգտվողը պետք է նշի MapReduce աշխատանքը գործարկելու համար:
Հիմնական կազմաձևման պարամետրերը, որոնք օգտվողները պետք է նշեն «MapReduce» շրջանակում, հետևյալն են. Job-ի մուտքագրման վայրերը բաշխված ֆայլային համակարգում: Աշխատանքի ելքային գտնվելու վայրը բաշխված ֆայլային համակարգում: Տվյալների մուտքագրման ձևաչափը: Տվյալների ելքային ձևաչափը: Դաս, որը պարունակում է քարտեզի գործառույթը: Կրճատման ֆունկցիա պարունակող դաս
Ո՞րն է տվյալների մշակման շարժիչը Amazon Elastic MapReduce-ի հետևում:
Amazon EMR-ն օգտագործում է Apache Hadoop-ը որպես իր բաշխված տվյալների մշակման շարժիչ: Hadoop-ը բաց կոդով Java ծրագրային շրջանակ է, որն աջակցում է տվյալների ինտենսիվ բաշխված հավելվածներին, որոնք աշխատում են ապրանքային սարքավորումների մեծ կլաստերների վրա: