Also somit auch kein WDF*P*IDF, an dieser Stelle "Sorry, das ich momentan nicht über diese Gewichtungsformel schreiben möchte".
Conversion Optimierung und statistische Tests - der t-test und seine Berechnung
Abbildung: t-Verteilung
- ein Bild
- eine Download-Option
- ein Kauf-mich-Button
Bevor es aber zu der Conversion Optmierung kommt, erst mal eine kleine Erklärung zu statistischen Tests.
Was ist ein statistischer Test?
Unternehmen, aber auch Blogger oder Wissenschaftler haben in er Regel eine Menge an Daten zu einem Themengebiet zur Verfügung. Mit diesen Daten bzw. mit Teilmengen (Stichprobe) dieser Daten kann man dann Hypothesen (Annahmen, Vermutungen) wiederlegen oder ihre Gültigkeit "beweisen".
Durch die Durchführung eines statistischen Test erhält man mit der Teststatistik (dies ist eine mathematische Formel angepasst an die jeweilige Ausgangslage) einen Wert, der mit einer Wahrscheinlichkeit angibt, ob die Aussage zutrifft (gültig ist) oder nicht zutrifft.
Welche Daten benötigt man?
Je nach Ausgangssituation hat man verschiedene Daten zur Verfügung. Jedoch benötigt man immer mindestens eine Stichprobe, also eine zufällig gewählte Menge an Daten. Zudem benötigen man die Ausprägungsformen der Daten.
Beispiel Conversion Rate Optimierung:
Wir haben eine URL-Seiten zur Verfügung mit zwei Ausprägungsformen. Seite A beinhaltet ein Video und ein Bild.
Nach 100 Seitenaufrufe hat man dann eine Menge an Besucher die das Video angeklickt haben und wir haben eine Menge an Besucher die das Bild angeklickt haben.
(Die Conversion erfolgt beim anklicken)
Somit sind die Realisationsmöglichkeiten (Merkmalsausprägungen):
Da wir natürlich nicht wissen warum die 100 Seitenbesucher auf das Bild oder auf das Video geklickt haben, aber wir gerne wissen möchte, welcher dieser beiden Seitenelemente zur Optimierung der Conversion einen größeren Anteil besitzt, können wir eine Hypothese aufstellen.
Unsere Hypothese lautet für die Conversion Rate Optimierung: Video-Option ist erfolgreicher als Bild-Option.
Nun brauchen wir Daten. Deshalb sammeln wir die Klicks für einen Monat.
Die erste Woche sieht wie folgt aus:
Gehen wir davon aus, dass die beiden Optionen normalverteilt sind (das dürfen wir auch annehmen, denn nach einer Zeit Unterscheiden sich die Seitenaufrufe, wenn es keine großartigen Veränderungen gibt: Panda Update, andere Abstrafungen, plötzlicher Ranking Verlust oder -Verbesserung, etc. kaum voneinander). Irgendwann nehmen diese Klicks dann wieder ab, weil das Thema und das Produkt keine Nachfrage mehr hat oder der Wettbewerb zugenommen hat. Aber zwischen Seitengeburt und der Schlussphase, sind die Klicks in der Regel gleichverteilt.
Die Nullhypothese ist in diesem Conversion Optimierungs Beispiel:
Es gibt keine Unterscheidung zwischen der Conversionrate bei der Video- und Bildoption .
kommen wir zum t-Test:
beim t-Test Vergleichen wir die Mittelwerte der beiden Optionen miteinander:
- Mittelwert-Klicks auf Bild für die erste Woche ist: 14,28
- Mittelwert-Klicks auf Video für die erste Woche ist: 17,00
Nun müssen wir die Varianz berechnen.
Was ist die Varianz?
Abbildung: Streuungsunterschiede |
Je mehr Daten man hat, um so größer kann die Streuung der Werte um den Mittelwert sein.
Würden wir also nicht nur eine Woche, sondern einen oder zwei Monate betrachten hätten wir bestimmt noch einige "extreme" Ausreißer dabei. Diese würden dann den Mittelwert verfälschen.
Um also diese Streuung zu messen, benötigen wir einen Maß für diese Streuung.
Diesen Wert liefert uns die empirische Varianz (Stichprobenvarianz):
Wir summieren also die quadratischen Abweichungen der einzelnen Wert zu ihrem arithmetischen Mittel und korrigieren dieses Wert um 1/(n-1) (das ist wichtig erwartungstreue der Zufallsvariable; ist aber in diesem Beispiel nicht von größerer Bedeutung)
In unserem Beispiel ist die empirische Varianz folgende:
Somit habe ich die Varianz der Klicks auf das Bild bzw. die Streuung der Conversion berechnet.
Das gleich habe ich für die Video Conversion gemacht.
Nun haben wir also s^2 berechnet. Wir benötigen aber die Standardabweichung für das berechnen des t-Wertes. Also müssen wir noch die Wurzel "ziehen". Außerdem müssen wir beide Stichproben gemeinsam betrachten:
s = ((n_1-1)*s_1^2+(n_2-1)*s_2^2)/(n_1+n_2-2))^(1/2)
s=4,28
Nun können wir den t-Wert für unseren t-Test berechnen:
Somit ist unser t-Wert lautet in unserem Fall: 1,1875 (Ich habe x_2 - x_1 berechnet weil meine Alternativhypothese ja lautet, dass die Conversion rate von Videos größer ist als die der Bilder.
Das war es fast auch schon. Nun müssen wir die t-Tabelle aufschlagen und nachschauen, ob unser t-Wert größer oder kleiner ist als der Wert in der t-Tabelle.
Hierfür brauchen wir den Freiheitsgrad:
fd = n+m-2 = 7+7-2 =12
Und wir wählen Alpha mit 0,05 (5%), so dass wir in der Spalte des 0,95 Quantils der t-Tabelle schauen müssen:
t(0,95,12) = 1,782.
Unser t-Wert ist aber 1,1875. Somit ist unsere Nullhypothese richtig!
Keiner der beiden ist also eindeutig stärker in der Conversion-Leistung. Es gibt keine eindeutige Signifikanz!
Ich habe hier aber auch nur 7 Tage betarchtet. Wie ich ganz weit oben im Artikel erwähnt hatte, macht es natürlich mehr Sinn, wenn man eine lange Zeitspanne betarchtet. Um so mehr Daten man zur Verfügung hat, um so genauer wird unsere Analyse sein!
Notiz: Dieses Beispiel ist ein t-Test für zwei Stichproben, die nicht voneinander abhängig sind.