Clusteranalyse
Mit einer Clusteranalyse soll Komplexität reduziert werden, in dem man bestimmte Objekte zu Gruppen (den sogenannten Clustern) zusammenfasst. Möglich ist dies, wenn die Objekte zueinander sehr homogen (man spricht auch von einer hohen Intracluster-Homogenität) sind. Die Gruppen selbst sollten zueinander hingegen heterogen (man spricht auch von einer geringen Intercluster-Homogenität) sein, damit es eine klare Trennschärfe gibt.
Durchführung einer Clusteranalyse
Eine Clusteranalyse kann in folgenden Schritten durchgeführt werden:
Schritt 1: Variablenauswahl
Im ersten Schritt müssen die Variablen ausgewählt werden. Falls keine Variablen bekannt oder vorgegeben sind, müssen die Variablen vor der Untersuchung erst einmal bestimmt und erhoben werden.
Dargestellt werden die Ausprägungen der Clustervariablen für die Objekte der Stichprobe in der Regel in einer Datenmatrix.
Schritt 2: Aufstellung einer Distanzmatrix
Um die Homogenität von metrischen Kennzahlen vergleichen zu können, greifen wir auf das Konzept der Distanz zurück. Dafür muss eine Distanzmatrix aufgestellt werden, in der man die einzelnen Abstände/Distanzen von jeweils zwei Objekten und ihren Ausprägungen schnell ablesen kann.
Berechnet werden kann die Distanz nun über die sogenannte Minkowski-Metrik, die ein allgemeines, gebräuchliches Distanzmaß darstellt.

Je nach dem, welchen Wert man für p einsetzt, erhält man Spezialfälle der Minkowski-Metrik. Bei p=2 spricht man beispielsweise vom euklidischen Distanzmaß, da man den gebräuchlichen euklidischen Abstand erhält, weshalb dieser Parameter auch häufig benutzt wird. Bei p=1 spricht man hingegen von der
City-Block-Metrik
Bei ordinalskalierten Variablen ist eine Distanzberechnung nicht so einfach möglich. Man kann allerdings bei ordinalen Variablen auf eine Dichotomisierung für jedes Merkmal zurückgreifen (Achtung Informationsverlust!) oder aber man betrachtet die Ausprägung als quasi-metrisch an.
Bei nominalskalierten Variablen würde man statt einer Distanzmatrix eine
Ähnlichkeitsmatrix erstellen. Hierbei betrachtet man eine binäre Variablenstruktur. Die Werte für die Kennzahlen können also nur zwischen 0 und 1 schwanken, wobei eine 0 bedeutet, dass keinerlei Übereinstimmung zwischen den beiden Objekten auf ihren Ausprägungen existiert, während eine 1 eine vollständige (prozentuale) Übereinstimmung bedeutet. Für diese binäre Variablenstruktur gibt es verschiedene Ähnlichkeitsmaße,
Schritt 3: Ausreißer eliminieren
Ausreißer müssen eliminiert werden, wofür man auf verschiedene Verfahren zurückgreifen kann. Eines dieser Verfahren ist beispielsweise das Single-Linkage Verfahren, wobei die Auswahl auch abhängig von der Auswahl des Clusteralgorithmus ist.
Schritt 4: Clusteralgorithmus auswählen
Bei der Auswahl des Clusteralgorithmus unterscheidet man zwischen hierarchischen Verfahren und partitionierenden Verfahren. Hierarchische Verfahren lassen sich weitere in agglomerative und divisive Verfahren einteilen. Das in Schritt 3 genannte Single-Linkage-Verfahre wäre beispielsweise ein hierarchisches, agglomeratives Verfahren. In der Praxis werden Verfahren häufig kombiniert.
Schritt 5: Clusterzahl bestimmen
Sind Cluster gebildet, muss nun die genaue Anzahl bestimmt werden. Auch hier gibt es verschiedene Vorgehensweise, eine sehr einfache ist das sogenannte „Ellenbogenkriterium“, bei dem man die Clusterzahl mit dem stärksten Heterogenitätszuwachs nimmt.
Schritt 6: Auswertung
Abschließend geht es um die Interpretation und Benennung der Cluster. Über die Mittelwerte der Cluster, also den Merkmalen auf denen die Bildung des Clusters basiert, kann eine Varianzanalyse durchgeführt werden, um auf Signifikanz zu testen.
Unterschied von Clusteranalyse und Faktoranalyse
Sowohl Clusteranalyse als auch
Faktorenanalyse verfolgen den Ansatz der Komplexitätsreduktion. Während bei der Clusteranalyse allerdings
Objekte zu Clustern zusammengefasst werden, verfolgt die Faktorenanalyse das Ziel
Variablen zu Faktoren zusammenzufassen.
Quellen