Հիերարխիկ vs մասնակի կլաստերացում

Կլաստերի հավաքումը մեքենայական ուսուցման մեթոդ է ՝ տվյալների վերլուծության և նման տվյալների խմբերի բաժանման համար: Նմանատիպ տվյալների այս խմբերը կամ հավաքածուները հայտնի են որպես կլաստերներ: Կլաստերի վերլուծությունը նայում է կլաստերային ալգորիթմներին, որոնք կարող են ինքնաբերաբար ճանաչել կլաստերները: Hierarchical- ը և Partition- ը կլաստերային ալգորիթմների երկու նման դասեր են: Հիերարխիկ կլաստերի ալգորիթմները տվյալները բաժանում են դեպի կլաստերի հիերարխիա: Անցումային ալգորիթմները բաժանված տվյալների բաժանվում են փոխադարձաբար բաժանվող միջնապատերի:

Ի՞նչ է հիերարխիկ կլաստերացումը:

Հիերարխիկ կլաստերի ալգորիթմները կրկնում են կամ փոքր խմբաքանակների ավելի մեծ մասերը միաձուլելու կամ ավելի մեծ կլաստերները փոքրերին բաժանելու փուլը: Ամեն դեպքում, դա արտադրում է կլաստերի հիերարխիա, որը կոչվում է դենդոգրամ: Ագլոմերատիվ կլաստավորման ռազմավարությունը օգտագործում է ներքևից վերև մոտեցումը `կլաստերները միաձուլելու ավելի մեծերին, մինչդեռ բաժանարար կլաստավորման ռազմավարությունն օգտագործում է բաժանման վերևից ներքև մոտեցումը դեպի փոքրերը: Սովորաբար, ագահ մոտեցումն օգտագործվում է որոշելու, թե որ ավելի մեծ / փոքր կլաստերներն են օգտագործվում միաձուլման / բաժանման համար: Էվկլիդյան հեռավորությունը, Մանհեթենի հեռավորությունը և տիեզերական նմանությունը թվային տվյալների համար նմանության ամենատարածված մեթոդներից են: Ոչ թվային տվյալների համար օգտագործվում են այնպիսի մետրեր, ինչպիսիք են Hamming- ի հեռավորությունը: Կարևոր է նշել, որ բուն դիտարկումները (դեպքերը) անհրաժեշտ չեն հիերարխիկ կլաստավորման համար, քանի որ միայն հեռավորությունների մատրիցը բավարար է: Dendogram- ը կլաստերի տեսողական ներկայացում է, որը հիանալի կերպով ցույց է տալիս հիերարխիան: Օգտագործողը կարող է ձեռք բերել տարբեր կլաստերացում `կախված այն մակարդակից, որով կտրվում է դենդոգրամը:

Ի՞նչ է մասնակի կլաստավորումը:

Մասնակի կլաստավորման ալգորիթմները առաջացնում են տարբեր միջնապատեր, այնուհետև դրանք որոշ չափանիշներով գնահատում: Դրանք նաև անվանում են ոչհիարխարական, քանի որ յուրաքանչյուր դեպք տեղադրված է k փոխադարձ բացառապես կլաստերներից մեկի մեջ: Քանի որ կլաստերի միայն մեկ հավաքածու է տիպիկ մասնակի կլաստավորման ալգորիթմի ելքը, օգտագործողը պարտավոր է մուտքագրել կլաստերի ցանկալի թիվը (սովորաբար կոչվում է k): Կլաստերի հավաքման առավել հաճախ օգտագործվող ալգորիթմներից մեկը k- միջոցների կլաստավորման ալգորիթմն է: Օգտագործողը պարտավոր է նախքան մեկնարկը տրամադրել կլաստերի քանակը (k), իսկ ալգորիթմը նախ նախաձեռնում է k միջնապատերի կենտրոնները (կամ ցենտրոիդները): Մի խոսքով, k- ը նշանակում է կլաստավորման ալգորիթմ, այնուհետև անդամներին հանձնարարում է գործող կենտրոնների և վերահաշվարկի կենտրոնների հիման վրա ՝ հիմնվելով ներկայիս անդամների վրա: Այս երկու քայլերը կրկնվում են այնքան ժամանակ, մինչև օպտիմիզացվի որոշակի ներբլաստերային նմանությունների օբյեկտիվ գործառույթ և միջ-կլաստերային անտարբերության օբյեկտիվ գործառույթ: Հետևաբար, կենտրոնների խելամիտ նախաստորագրումը շատ կարևոր գործոն է մասնակի կլաստավորման ալգորիթմներից որակի արդյունքների հասնելու համար:

Ո՞րն է տարբերությունը հիերարխիկ և մասնակի կլաստավորման միջև:

Հիերարխիկ և մասնակի կլաստավորումը հիմնական տարբերություններ ունեն վազքի ժամանակի, ենթադրությունների, մուտքային պարամետրերի և արդյունքում առաջացող կլաստերի մեջ: Սովորաբար, մասնակի կլաստավորումը ավելի արագ է, քան հիերարխիկ կլաստերացումը: Հիերարխիկ դասակարգումը պահանջում է միայն նմանության միջոց, մինչդեռ մասնակի կլաստավորումը պահանջում է ավելի ուժեղ ենթադրություններ, ինչպիսիք են կլաստերի քանակը և սկզբնական կենտրոնները: Հիերարխիկ կլաստավորումը չի պահանջում մուտքագրման որևէ պարամետր, մինչդեռ մասնակի կլաստավորման ալգորիթմները պահանջում են կլաստերի քանակը, որպեսզի սկսեն գործարկել: Հիերարխիկ կլաստերի հավաքումը վերադարձնում է կլաստերի շատ ավելի իմաստալից և սուբյեկտիվ բաժանումը, բայց մասնակի կլաստավորումը հանգեցնում է հենց կլաստերի: Հիերարխիկ կլաստավորման ալգորիթմները ավելի հարմար են կատեգորիկ տվյալների համար, քանի դեռ համապատասխանության չափը կարող է համապատասխանաբար սահմանվել: