Ի՞նչ է Gensim-ը Python-ում:
Ի՞նչ է Gensim-ը Python-ում:

Video: Ի՞նչ է Gensim-ը Python-ում:

Video: Ի՞նչ է Gensim-ը Python-ում:
Video: NLP with Python! Bag of Words (BoW) 2024, Նոյեմբեր
Anonim

Գենսիմ բաց կոդով գրադարան է թեմաների չվերահսկվող մոդելավորման և բնական լեզվի մշակման համար՝ օգտագործելով ժամանակակից վիճակագրական մեքենայական ուսուցում: Գենսիմ իրականացվում է Պիթոն և Cython.

Հաշվի առնելով սա՝ ի՞նչ է Gensim Word2Vec-ը:

1. Ներածություն Word2vec . Word2vec բառերի ներկառուցումը սովորելու ամենատարածված մեթոդներից մեկն է՝ օգտագործելով երկշերտ նեյրոնային ցանց: Դրա մուտքագրումը տեքստային կորպուս է, իսկ ելքը՝ վեկտորների մի շարք: Ուսուցման երկու հիմնական ալգորիթմ կա word2vec , մեկը բառերի շարունակական պարկն է (CBOW), մյուսը կոչվում է skip-gram:

Բացի այդ, ինչպե՞ս է աշխատում Gensim-ի ամփոփումը: Ձեռնարկ՝ ավտոմատ ամփոփում օգտագործելով Գենսիմ . Այս մոդուլը ավտոմատ կերպով ամփոփում է տրված տեքստը՝ տեքստից հանելով մեկ կամ մի քանի կարևոր նախադասություններ։ Նմանապես, դա կարող է նաև հանել հիմնաբառեր:

Հետագայում, կարելի է նաև հարցնել, թե ինչպե՞ս կարող եմ Gensim ներմուծել Python-ում:

5 Պատասխաններ. Նախ պետք է տեղադրել NumPy, ապա SciPy և հետո Գենսիմ (ենթադրելով, որ դուք արդեն ունեք Պիթոն Տեղադրվել). ես օգտագործել եմ Պիթոն 3.4, քանի որ ես գտնում եմ, որ ավելի հեշտ է տեղադրել SciPy-ն՝ օգտագործելով 3.4 տարբերակը: ՆՇՈՒՄՆԵՐ. Համոզվեք, որ pip-ը ձեր միջավայրի փոփոխականներում է (ավելացրեք C:python34scripts ձեր միջավայրի փոփոխականին):

Ի՞նչ է Gensim կորպուսը:

Հաջորդ կարևոր առարկան, որին պետք է ծանոթանաք՝ աշխատելու համար gensim է Կորպուս (Բառերի տոպրակ): Այսինքն՝ դա ա կորպուս օբյեկտ, որը պարունակում է id բառը և դրա հաճախականությունը յուրաքանչյուր փաստաթղթում: Դուք կարող եք մտածել դրա մասին որպես gensim-ի Փաստաթուղթ-ժամկետ մատրիցայի համարժեքը:

Խորհուրդ ենք տալիս: