Sonntag, 19. August 2012

Erklärung der Clusteranalyse-Teil 2

Heute möchte ich einen weiteren Artikel über die Clusteranalyse im Bezug auf die Suchmaschinenoptimierung (SEO) schreiben.

Im ersten Teil der Clusteranalyse ging es um folgende Punkte:


1.) um eine allgemeine Definition der Clusteranalyse.
2.) Erklärung zu homogenen (Teil-) Mengen
3.) Vorgehensweise: Clusteranalyse mit größerer Dimension
4.) Begriffserklärung: Proximitätsmaß

Zudem findet man im ersten Teil der Clusteranalyse einfach Beispiele, welchen einen Bezug zur Suchmaschinenoptimierung (Keyworddichte, Bounce Rate, Textlänge und Co.) darstellen sollen.

Kommen wir nun aber zum zweiten Teil der mathematischen Clusteranalyse:

In der Clusteranalyse geht es darum, zwischen betrachteten Untersuchungsobjekten Ähnlichkeiten zu finden bzw. Untersuchen, ob es denn überhaupt eine Ähnlichkeit gibt.

Verfahren der Clusteranalyse-Beispiel: Clusteranalyse mit Binärdaten:


Beispiel: Ähnlichkeit zwischen vier verschiedenen Seiten:

Definition Binärdaten:
Daten die immer nur eine Merkmalsausprägung aus zwei möglichen Alternativen annehmen.

Haben wir zum Beispiel die Eigenschaft, dass "eine Seite im auf der ersten 10 Seite im SERP zu finden" ist und die Eigenschaft das die "Seite nicht auf in den ersten 10 Seite im SERP zu finden ist". Dann können wir diese Beobachtung (Zufallsvariable) folgendermaßen formulieren:



0, falls Seite - i nicht zu finden ist.
1, falls Seite - i zu finden ist.

0 steht in der Regel für: nicht (vorhanden), falsch
1 steht in der Regel für: ja (vorhanden), richtig


Ich empfehle hier folgendes Buch um noch mehr Beispiele und Definitionen zu erhalten:
Clusteranalyse: Anwendungsorientierte Einführung in Klassifikationsverfahren



Kommen wir zu unserem Beispiel: Ähnlichkeit vier verschiedenen Webseiten:

Schritt 1:
Wie schon im ersten Teil erklärt worden ist, haben wir an Anfang unserer Analyse eine Menge unterschiedlicher (heterogene) Daten und diese fassen wir in eine Matrix zusammen.
Diese Matrix ist die Rohdatenmatrix:





Wie ihr erkennen könnt, sind die Merkmalsausprägungen mit 0 und 1 angegeben.
0 für nicht vorhanden und 1 für vorhanden (Binäre Datenstruktur)

Schritt 2:
Nun addieren wir die Variablen miteinander.
Und zwar erfolgt die Addition für  jedes Objekt und für jede Variable.



Für  Website A addieren wir also die Variablen:
Ø-Textlänge, Ø-Keyworddichte, Ø-Bounce Rate, Ø-Time on Site, Videos vorhanden und Bilder vorhanden.

Dies Rechnung führen wir dann für alle Webseiten aus.

Danach machen wir die gleich Addition für jede Variable. Für Variable 1 addieren wir:
Website A +  Website B + Website C + Website D.

Schritt 3:
Nun berechnen wir eine Maßzahl für die Ähnlichkeit der Objekte. Dafür verwenden wir eine Ähnlichkeitfunktion.

Um bei unserem Webseiten-Beispiel zu bleiben, erkläre ich wie man für die 4 Objekten und ihren Merkmalsausprägungen den Jaccard-Koeffizienten berechnet:



Thalia.de

Berechnung: Jaccard-Koeffizient:

Wir erstellen uns eine (Excel-) Tabelle mit unseren vier Objekten (siehe oben).
Somit können wir die Webseiten im Vergleich zueinander besser darstellen.

Dann fügen wir in der Diagonalen nur 1-er in der (Excel-) Tabelle ein.

1.) Anschließend vergleichen wir Webseite A (erste Spalte) mit Webseite B (dritte Zeile) und zwar zählen wir wie viele Eigenschaften zwischen Webseite A und Webseite B übereinstimmen:
In unserem Fall in das Ergebnis: 2 ("Keyworddichte" und "Bilder vorhanden")

2.) Nun zählen wir alle Merkmale zwischen Webseite A und B die unterschiedlich sind:
Das Ergebnis ist: 4 ("Textlänge", "Bounce Rate", "Time on Site", "Videos vorhanden")


3.) Diese Ergebnis aus den unterschiedlichen Merkmalsausprägungen der Objekte (Zufallsvariablen) addieren wir mit den Übereinstimmungen:
2 + 4 = 6

4.) Nun können wir den Jaccrad-Koeffizienten berechen:

2/6 = 1/3 = 0,33333; wir teilen also die Anzahl der Übereinstimmungen zwischen Webseite A und Webseite B (siehe 1.)) mit dem Ergebnis aus 3.)

Diese Rechnung führen wir nun für alle Webseiten aus:
A und C , A und D , 
B und C und B und D
C und D.

Was sagen die Zahlen dieser aus diesem Teil der Clusteranalyse über die Ähnlichkeit aus?

wie ihr sehen könnt habe ich in der Diagonalen nur die Zahl 1 eingetragen.
1 steht für eine maximale Ähnlichkeit zwischen zwei Objekten



und deshalb muss in dieser Diagonalen auch jweils eine eins stehen. Denn wenn man die Webseite A mit der Webseite A vergleicht, dann sind diese beiden natürlich identisch. (das gilt natürlich auch für die anderen Webseiten.)
Folge: Jaccard-Koeffizient muss gleich eins sein!

Der maximale Wert des Ähnlichkeitskoeffizienten von Jaccard ist also Eins.
Der minimale Wert von dem Jaccard Koeffizienten liegt bei Null.

Folge: Je unterschiedlicher zwei Seiten sind, um so kleiner ist ihr Jaccard-Koeffizienten Wert.

In unserem Beispiel gibt es die größte Ähnlichkeit zwischen der Webseite A und der Webseite C, sowie für Webseite B und Webseite D.
Jedoch ist die Ähnlichkeit zwischen Webseite A und Webseite B ein "guter", denn im Bezug auf die Suchmaschinenoptimierung erfüllen sie positive Eigenschaften (niedrige Bounce Rate, Time on Site ist ordentlich, .....)

Dies war ein einfaches binäres Clusteranalysen Beipiel.
Jedoch kann man auch aus solchen kleinen Analysen Ergebnisse erzielen.
Und zwar könnte man beispielsweise in unserem Beispiel das durchschnittliche Ranking der Seiten miteinander Vergleichen.

Das Ergebnis wird sein das Seite A und Webseite C durchschnittliche höher ranken (bei Google) als Webseite B und D. 
(Ihr könnt mir glauben, ich habe hier 4 Nachrichtenportale miteinander verglichen. Eigentlich waren es 20 Nachrichtenportale, aber für meine Blog-Artikel habe ich nur die 4 genommen um es einfach zu halten).

Weiter Clusteranalysen und Beispiele werden folgen!

Hier noch ein Buchtipp von mir: