UMĚLÁ INTELIGENCE V AUTOMOTIVE / David et al.

souzení a porovnání výsledků. Implementace opatření platnosti je nezbytná pro zajištění spolehlivosti a kvality shlukovaných dat, a tím i pro objektivní zhodnocení jejich vhodnosti pro daný účel. Existují dva hlavní přístupy k určení správného počtu shluků v datasetu. Prvním přístupem je využití shlukovací analýzy k identifikaci podskupin dat, které sdílejí podobné charakteristiky a chování. Tento přístup může být realizován pomocí algoritmů jako je K-means nebo hierarchické shluková ní, které se snaží rozdělit data do shluků tak, aby v rámci každého shluku byla podobnost mezi objekty co nejvyšší a mezi shluky co nejnižší. Tento přístup umožňuje identifikovat shluky, které mohou být následně použity k segmentaci trhu, personalizaci marketingových strategií nebo kategorizaci zákazníků. Druhým přístupem k určení správného počtu shluků je využití metody L- -souvisejících vektorů (L-related vectors), která se zakládá na principu hle dání shluků, ve kterých jsou data vzájemně nejvíce podobná. Tato metoda se liší od tradičních algoritmů založených na minimalizaci vnitřní rozptylu shluků, a proto může vést k odlišným výsledkům. Využití L-souvisejících vektorů se jeví jako vhodné zejména v případech, kdy data nevykazují klasické charakteristiky distribuce, jako je například nor mální rozdělení. Tato metoda může být efektivní pro identifikaci shluků v datech s výraz nými odchylkami od očekávaného rozložení a přispět k objevení nových a nekonvenčních vzorců v datech. Existuje mnoho různých měřítek skalární validity, která slouží k posouzení kvality shlukování dat. Tyto metriky zahrnují například Silhouette Coefficient, Dunn Index, Calinski-Harabasz Index a Davies-Bouldin Index. Každá z těchto metod má své silné a slabé stránky a žádná z nich není absolutně dokonalá. Proto je podstatné zohlednit více než jedno hledisko při určování nejlepšího počtu shluků v datech. Tyto koeficienty poskytují kvantitativní míru kvality a kompaktnosti shluků, což je klíčové pro porozumění struktury dat a identifikaci relevantních shluků. Další koefi cienty [6.36] mohou být: 1. Rozdělovací koeficient (Partition Coefficient, PC): měří množství „překrý vání“ mezi shluky, dle [6.41] je definován následovně:

kde µ ij je míra příslušnosti datového bodu j ve shluku i . Nevýhodou PC je nedostatek přímého připojení k nějaké vlastnosti samotných dat. Optimální počet shluků je na ma ximální hodnotě.

89

Made with FlippingBook - Share PDF online