Mittwoch, 15. August 2012

Definition Clusteranalyse-Data Mining

Bevor ich weiter über die Keywordanalyse oder die Keyworddichte schreibe, möchte ich einen Artikel über die Clusteranalyse schreiben.

Punkt 1: (i) Was ist die Clusteranalyse?
                (ii) Beispiel zu den Begriffen

Punkt 2: (i) Clusteranalyse größerer Dimension-Vorgehensweise
                (ii) Quantifizierung der Ähnlichkeit

Was ist die Clusteranalyse?

Buch zum Theme:
Statistik: Der Weg zur Datenanalyse (Springer-Lehrbuch)

 
(i) Jeder der sich mit Daten beschäftigt solltet diesen Begriff "Clusteranalyse" kennen.  
In der Clusteranalyse geht es darum eine Menge an unterschiedlichen Elementen bzw. Daten, also eine heterogene Menge in mehreren homogenen Teilmengen aufzuteilen.



Dadurch versucht man aus einer großen heterogenen Datenmenge ähnliche Strukturen und gleiche
Merkmale (also zusammenhänge) in homogenen Teilmengen zu finden.


(ii) Kommen wir zu einem Beispiel, um die oberen Begriffe der Clusteranalyse zu veranschaulichen:


Beispiel:

Fall 1: Wir wollen wissen, was dafür sorgt das unsere Videos auf einer Internetplattform oben ranken.
  
Am Anfang einer Datenanalyse, so auch in dieser, hat man immer eine große Menge an unterschiedlichen Daten.
Diese große Datenmenge ist die heterogene Menge. Sie beinhaltet in unserem Beispiel alle Daten, die man zur Videooptimierung bekommen hat:

Likes, Dislikes, Kommentare, Videoqualität, Videolänge, User-Merkmale, uvm


Nun muss man um Rankingfaktoren analysieren zu können homogene Teilmengen bilden.

Homogene Teilmengen bilden:

 

Man kann beispielsweise zwei Geschlechter Gruppen (beides sind unterschiedliche, aber homogene Gruppen- in Bezug auf das Geschlecht) bilden:

männlich- und weiblich Cluser (beides sind nominale Zufallsvariablen

So kann man unter anderem vergleichen, welche der beiden Zufallsvariablen einen größeren Beitrag zu unserem Erfolg leistet.

Der Erfolg könnte sein: 
Verweildauer auf unsere Videos, Clicks auf unsere Werbebanner, verfasste Kommentare, uvm.

Beispiel 2: 
Ein weiteres Beispiel zur Bildung von homogenen Mengen ist es, die verschiedenen Keywords nach ihrem Suchvolumen zu clustern (Gruppen bilden):

Cluster 1: 0-500
Cluster 2: 500-1000
Cluster 3: 1000-3000
Cluster 4: 3000-10000

So befinden sich in Cluster 1 alle Videos, die ein Suchvolumen zwischen 0-500 haben.
In Cluster 2 alle Videos, die ein Suchvolumen zwischen 500-1000 haben. usw.

Zu jedem dieser Suchvolumen-Cluster kann man nun schauen wie wir performen. Die dazu abhängigen Faktoren könnten sein:

Ranking, Views per Week, CTR, uvm.

Für die Suchmaschinenoptimierung und somit unter anderem auch für unsere Keywordauswahl ist die Clusteranalyse sehr nützlich.

Wir haben bis jetzt sehr einfach "Clustersysteme" beobachte.
Um besser Aussagen und vor allem genauere Analysen treffen zu können, müssen wir die Komplexität erhöhen.
Mathematisch gesehen erweitern wir die Dimension des Vektorraumes.


Thalia.de

Punkt 2: Clusteranalyse höherer Dimension-Vorgehensweise


Fangen wir also wieder von vorne an:

Schritt 1: Homogene Teilmengen bilden
Wir bestimmen Ähnlichkeiten aus unserer großen heterogenen Datenmenge, um unsere Elemente zu sortieren bzw. um Cluster zu bilden (Daten mit ähnlichen Merkmalsausprägungen).

Die heterogene Datenmenge wird in der Mathematik "Rohdatenmatrix" genannt. Sie beinhaltet k Objekte.

Zum Beispiel: Branche, Websites, Produkte

Diese Objekte (Zufallsvariablen) werden nun durch weitere i-Variablen beschrieben.
Diese i-Variablen (Merkmalsausprägungen) werden als Vektoren aufgefasst und bilden somit die Dimension des Vektorraumes.

Beispiel:
Als Beispiel können wir als Objekte drei verschiedene Webseiten betrachten mit jeweils verschiedenen Variablen:
Textlänge, Keyworddichte und die Bounce Rate

Unsere Rohdatenmatrix bzw. unsere Vektoren sehen dann wie folgt aus:





Wir müssen nun versuchen Ähnlichkeiten unter den Werten zu finden. Dieser Schritt nennt sich auch die Quantifizierung der Ähnlichkeit.

Quantifizierung der Ähnlichkeit-Clusteranalyse

Um bei einer Clusteranalyse zu zeigen, dass Objekte ähnlich (oder unähnlich) sind, verwendet man Proximitätsmaße.
Jedoch muss man je nach Skalenniveau (nominale-, ordinale-, kardinale Zufallsvariablen) zwischen zwei Proximitätsmaßen unterschieden:

Zwei Proximitätsmaße-Unterscheidung:

Ähnlichkeitsmaße, diese geben zwischen zwei Objekten die Ähnlichkeit an. Hierbei gilt: je höher das Maß ist, desto ähnlicher sind sich die Objekte.

Distanzmaße zeigen bei zwei Objekten die Nicht-Ähnlichkeit an. Auch hier gilt: Je höher der Wert ist, um so unähnlicher sind sich die Objekte. Die Unähnlichkeitswerte werden auch Distanzwerte genannt.


Euklidischer Abstand

Bei zwei Vektoren sind sich zwei Objekte um so ähnlicher je näher die Differenz der Distanz bei Null liegt!

Zu weiteren Beispielen und weiteren Erklärung gibt es bald mehr!






Hier geht es zum zweiten Teil der Clusteranalyse: <Klick-it>



Keine Angst ich werde verschiedene Arten der Clusteranalyse mit mehreren Beispielen komplett erklären!
Und bleibt dran! 
Denn ihr werdet mit Hilfe der Clusteranalyse neue SEO Ansätze bekommen, um unter anderem neue Keywords für eure Webseite bzw. Blog zu finden.

Hier aber erst mal noch zwei Buchtipps von mir: