Episode 15: A/B-Testing: Der (nicht so) heilige Gral der Conversion-Optimierung

TRANSKRIPTION DIESER FOLGE DES PODCASTS

Hallo! Mein Name ist Jörg Dennis Krüger und wie mein Wurst-Kabel-Trommel-Wickler am Empfang gerade gesagt hat: Ja ich bin der Conversion-Hacker. Und in dieser Conversion-Hacking Podcast Folge soll es einmal um das Thema A/B-Testing gehen.

Wer mich kennt, der mich schon ein wenig länger kennt der weiß ja, dass A/B-Testing eines meiner absoluten Basis-Themen ist. Ich habe 2008 mit dem Thema, 2006 sogar schon ein Thema A/B-Testing gestartet damals für Omniture. Mittlerweile ist es Adobe-Test und Adobe-Target, das sind alte Produkte, die wir damals bei großen Firmen wie DKV, Allianz oder ähnlichem genutzt und eingeführt haben. Und das heißt, seit dem A/B-Testing und mein Buch was 2011 erschienen ist, ist Conversion-Boosting mit Website Testing heißt auch nicht ohne Grund ganz genau so.

Mein Buch zu A/B-Testing

Conversion-Boosting mit Website Testing, weil der Fokus des Buches doch schon sehr stark das Thema A/B-Testing ist. Ich stelle dort das Conversion-Boosting Modell vor, wie man überhaupt an das Thema Website Optimierung und Testing herangeht und ich zeige wie man testet, wie man Zeiträume auswertet. La la la la. Ich muss aber sagen, dass ich mittlerweile ein wenig weiter gelernt habe, denn es geht gar nichts bei der Optimierung so ums testen. Ich meine das Testen ist ja groß geworden durch Barack Obama, denn in seinem Wahlkampf hat er durch A/B-Testing extrem viel mehr Spenden gesammelt. Und aus dieser Spenden-Sammelaktion ist dann auch der heutiger A/B-Testing Anbieter Optimizely entstanden. Das ist im Prinzip das, was am Anfang mal irgendwie für die Obama-Kampagne gebaut worden ist. Klar hat sich mittlerweile viel verändert, Optimizely meisten hat irgendwie 80, 90 Millionen Venture-Capital bekommen, um das Tool weiterzuentwickeln und so weiter.

A/B-Testing-Tools: Optimizely, Google Website Optimize & Co.

So sophisticated die Software mittlerweile auch ist – der Einstiegspreis mittlerweile sehr hoch ist. Warum ich nicht mal so häufig empfehle – aber cooles Tool. So also wollten alle A/B-Testing machen, was für Obama funktioniert hat, das funktioniert ja wohl auch für mich und so weiter. Das große Problem ist, die meisten Shops oder Websites, aber bei mir geht es ja meistens um Shops, sind einfach nicht Test bar. Warum? Man hat nicht genug Traffic, denn so ein Test ist eben einfach eine ganz normale Doppelblindstudie wie wir sie aus der Medizin oder aus der generellen Wissenschaft kennen.

Statistisch signifikante Ergebnisse

Und damit ich in so einer Studie genug Ergebnisse habe und statistisch signifikante Ergebnisse habe, brauche ich eben genug Daten und diese Daten sind natürlich immer Besucher auf der Seite auf der anderen Seite Conversion, das sind so die beiden Hauptfaktoren die damit spielen. Und wenn ich zu wenig Besucher auf der Seite habe oder eine derzeit einfach zu geringe Konversionsrate und meistens beides. Dann komme ich auf keine statistisch signifikanten Ergebnisse, dann habe ich immer das Problem, dass ich irgendwie Daten habe, aber wenn ich das ein wenig ausrechne, sind das eigentlich alles Zufalls Daten. In den Testing Tools wird sowas dann auch als Konfidenz oder Signifikanz angezeigt.

Und wenn die dann eben irgendwie nicht über 60, 70 Prozent kommt – Naja also 50 Prozent ist ein Münzwurf – 60, 70 Prozent ist nicht sehr viel besser und, wenn man dann genauer darüber nachdenkt, dann merkt man nun dass, man wirklich viele Daten braucht um wirklich verlässliche Ergebnisse zu bekommen und die auch über einen gewissen Zeitraum denn man muss mindestens 7, wahrscheinlich sogar 14 Tage testen, um jeden Wochentag mindestens einmal eigentlich mindestens zweimal zu haben.

Optimaler Testzeitraum für A/B-Tests

Man darf aber nicht zu lange testen um sich nicht zu viele externe Einflüsse zu viel Rauschen rein zu holen und darum sind so 2 bis 6 Wochen der optimale Test Zeitraum. Und ja, wenn man da dann nicht genug Conversions hat und genug Besucher hat dann wird es schwierig. Was heißt jetzt genug. Also Faustregel ist: Ich brauch pro Test Variante mein Minimum hundert Conversions. Aber das ist nur eine Faustregel. Wenn beide Varianten die gleichen Conversions haben, bin ich doch nur bei „fiftyfifty“-Wahrscheinlichkeit welche Variante zutrifft.

Das heißt, wenn ich zwei Varianten habe und ich auf 200 Conversions dann müssen sich die eben deutlich unterscheiden. Also 150 zu 50 Conversions beispielsweise. Das wäre wahrscheinlich ein signifikanter Unterschied, ob wir sagen können Ja die 150 Conversions Variante ist definitiv besser als die 50 konvergente Variante. Es gibt dafür aber einen Haufen kalkulatorische online.

Testdauer berechnen

Wenn man einfach nach arbeitest du Rechner oder kalkulatorische oder sowas schaut dann findet man bei allen A/B-Testing anbieten, ob das jetzt Optimizely, A/B-Tasty, bestimmt auch irgendwo bei Adobe und bei VWO und was weiß ich wo, findet man überall diese Test-Links kalkulierte Funktion alles so ein kleines bisschen anders zeigen vielleicht ein paar geringe andere Ergebnisse an, weil es gibt natürlich noch ein paar mehr, mathematische Variablen, die man damit einfließen lassen kann. Aber es gibt ein relativ gutes Gefühl, ob man überhaupt App testen kann oder nicht.

Denn nichts ist schlimmer als ein Test aufwendig zu planen, Tool einzubauen, Varianten umzusetzen, Tests zu starten und dann zu merken: Ich bekomme ja keine Ergebnisse. Macht man das Ding nach drei, vier, sechs oder acht Wochen aus und merkt „Ja scheiße, die ganze Arbeit war eigentlich zu viel“. Also hätte man gar nicht machen müssen – war umsonst. Und dass man sich auf gar keinen Fall das ist der Worst Case. Negative Testergebnisse wenn man merkt Oh diese Veränderung die funktioniert ja überhaupt nicht ist wiederum überhaupt nicht der worst case. Das ist ziemlich cool denn ich habe was gelernt und wir wollen durch arbeitest die insbesondere lernen. Wir wollen unsere Besucher besser kennenlernen.

Lernen durch A/B-Testing-Ergebnisse

Da trifft man nicht immer sofort und Conversions Uplift, also eine gesteigerte Conversionsrate, sondern manchmal halt auch einfach ein Downlift man merkt Wow das geht gar nicht. Ich habe grade vor einiger Zeit in einem Onlineshop etwas getestet, wo ich sehr, sehr sicher war, dass das zu mehr Konvergenz führt nämlich haben wir eigentlich im ganzen Shop oben so ein Banner eingebaut, wo auf die Bewertungen hingewiesen worden sind fünf Sterne bei Trust.

Das hat tatsächlich nicht dazu geführt dass mehr verkauft wurde ganz im Gegenteil Wir hatten einen signifikanten Downloads eine signifikante Senkung der Conversion weiter durch. Warum. Ich weiß es nicht. Warum können wir durch Testing extrem schwer beantworten. Aber wir wissen das lassen wir dann lieber machen irgendwas anderes. Und das auch der Grund warum man, wenn man Test Varianten Testing baut man möglichst pragmatisch vorgehen muss das heißt sie müssen sehr sehr schnell Varianten bauen.

Wunderbare Editoren

Nicht zwei drei vier sechs acht Wochen eine Variante programmieren um dann vielleicht noch nach einer Woche schon zu merken oft gar nicht vergessen sondern lieber quadratisch praktisch gut schnell eine Variante launchen. Die meisten Tools haben ja wunderbare Editoren oder Point and Click Editoren. Da kann man supercool mal schnell eine Variante mit bauen. Man muss natürlich aufpassen, dass die trotzdem in allen Browsern so richtig angezeigt wird und nicht halt irgendwie Beim Point and Clicky irgendwas kaputt geht. Aber so kann man meistens in Stunden oft sogar in Minuten,

eine ganz brauchbare Test Variante bauen wovon man dann wenn man dann sieht ob das funktioniert ganz gut dann vielleicht mal mehr Arbeit reinstecken das wirklich fein programmiert und dann Shop dauerhaft umsetzt oder ähnliches denn ganz häufig, tendieren Strategies dazu zu sagen Oh gute Idee das kann ich ja kann ich gleich Programmier. Brauchen wir gar nicht testen im Moment Nein wir wollen das ja testen. Wir wollen ja wissen ob es besser funktioniert und wenn ja wie viel besser. Damit wir einfach ja dann Entscheidungen treffen können und nicht einfach etwas umsetzen hinterher wissen wir nicht was mehr Conversions macht. Ich habe mal für einen großen Autovermieter gearbeitet und der ist sehr familiär von oben herab geführt.

Beispiel: Sixt Autovermietung

Man könnte auch autoritär sagen, auch wenn das – Alexander nicht trifft das nicht – Konstantin dich ein bisschen. Natürlich euer Papa, der regiert schon ganz schön von oben runter. Das darf er aber auch. Auf jeden Fall haben die einfach mal eine neue Website gelauncht. Die sollte so ein bisschen Googles Style haben und so und man hat noch nichts getestet man einfach eine neue Seite gelauncht. Man wusste nicht welchen Einfluss das auf die Conversion Rate hat. Dann kam ich. Ich dann nämlich für ein Jahr auf Websites und dann hab ich einfach mal getestet im anderen Land allerdings in den USA gelauncht und haben da quasi wieder eine etwas andere Logik getestet. So ein bisschen wie es vorher war.

Nicht so ein Googleschlitz, sondern so ein wenig klassischer, wie man es von Reisebuchungs-Maschinen kennt. Wir hatten in riesigen Uplift und mittlerweile hat sich auch die deutsche Seite wieder stark verändert. Das heißt man hat daraus einfach gelernt. Denn diese „Hippo Entscheidungen“, das heißt die Hightest Paid Persons Opinion, also die Meinung von dem der am meisten verdient, funktioniert nicht. Auch, wenn ich weiß Konstantin, du nicht am meisten verdienst, sondern dir nur ein kleines Gehalt zahlst – aber Tantiemen gibts ja auf jeden Fall.

Die HiPPO

Diese Hippo („Highest Paid Persons‘ Oppionion“), die ist nicht immer gut, sondern eigentlich genau das Gegenteil. Denn der Hippo („Highest Paid Person“) hat oft keine Ahnung von seinen Kunden so richtig der ist ja meistens relativ weit weg vom Tagesgeschäft. Und dann einfach eine Entscheidung noch schlimmer irgendwie halt dann die Meinung der Frau oder so. Ich finde es aber besser umzusetzen und das noch ohne zu testen ist natürlich ein Drama.

Deswegen ist Testing dann eben doch ein cooles tun und bei so großen Unternehmen wie diesem Mietwagen Anbieter da kann man natürlich sehr sehr gut testen aber auch da witzigerweise, nicht in jedem Land denn es gibt da auch Länder die haben einfach nicht wirklich genug Traffic Testing. Da merkt man auch, selbst in so großen Unternehmen ist der Traffic nicht unbedingt so hoch, dass man damit wirklich Testing machen könnte. Da muss man sich selbst nochmal fragen, ob man nur Alibi-Testing machen will, oder wirkliche Ergebnisse möchte.ö

Also ich muss erst herausfinden hab ich überhaupt genug Traffic und genug geworden um testen zu können, dann muss ich ganz pragmatische Tests machen mit den ich schnell Ergebnisse generiere ich überwachenden umsetzen kann und dann muss ich meinen Test 14 Tage drei Wochen vier Wochen maximal sechs Wochen laufen lassen und dann bin ich gut dabei. Und wenn ich noch nicht bin wenn ich feststelle ich habe noch nicht genug Traffic für wirkliches Testing dann komme wieder zu dem Thema Heuristiken oder best practice. Ich finde den wissenschaftlichen Begriff Heuristik irgendwie cooler, weil er auch irgendwie klarer sagt worum es geht. Denn eine Heuristik ist etwas mit begrenztem Wissen Vorhersagen über die Zukunft treffen können.

Best Practices und Heuristiken für schnelle Ergebnisse

Also es regnet und das hier ist mein Regenschirm ein begrenztes Wissen ist wenn ich den benutze bleibe ich wahrscheinlich trocken. Also Heuristik Regenschirm im Regen macht trocken da kenne ich nicht alle Faktoren. Es könnte sein dass ich jetzt ganz doll windet und nicht den Regen schon gar nicht benutzen kann ja gute Heuristik trifft halt nicht zu hundert Prozent wenn ich nicht alle Daten hab und so überhaupt. Aber es trifft ganz gut und keine Ahnung vom Online-Shop kann es halt sein Slider ist scheiße. Leider ist in 98 Prozent der Fälle nicht konvergent fördern. Also haben wir uns leider schon mal raus oder einfach so. Wo verlaufen sich Nutzer. Man kann ja mal qualitativ und quantitativ analysieren und dann feststellen wo Nutzer einfach abbrechen.

Dann kann man da schon mal gucken guck mal hier die finden alle den Button die klicken ja alle nicht weiter legen nichts in den Warenkorb. Da brauch ich erst mal nicht groß aber testen da kann ich erst einmal Heuristiken Best Practices umsetzen und das ist zu 80 Prozent auch das was ich bei meinen Kunden mache. Okay was sind jetzt die passenden Heuristiken um jetzt sofort erstmal mehr Conversions zu generieren Traffic mäßig genauso wie im Shop genauso wie auch E-Mail und sowas geht. Also wie können wir da erstmal aufräumen. Also bevor ich einen Innenausstattung Rufe rufe ich auch erst mal irgendwie das.

Der heilige Gral der Conversion-Optimierung?

Kommando an den Maler und nicht gleich in Innenausstattung und rumpelte, Bruchbude kommt wird er auch sagen Hey was soll ich denn hier und A/B-Testing ist an der Innenausstattung und, bis meist erreicht man aber mit dem Entrümpeln und dem Maler und für viele reicht er in blau und der Maler auch schon weil der Internatsleiter so teuer ist dass er vielleicht seinen Mehrwert gar nicht rein spielen kann. Schöne Metapher zum Schluss also nach wie vor. Ich liebe das Ding und das Ding ist eine super geile Sache aber es ist nicht der Heilige Gral der Conversion-Optimierung nicht der Heilige Gral für mehr Umsatz im Shop, weil es Aufwand ist und weil man halt überhaupt genug Traffic haben muss. Und insofern lohnt es sich erst mal im Shop ordentlich aufzuräumen und ganz zum Schluss Hier ein Tipp zum Selbermachen. Klar man kann natürlich mit mir reden aber zum Selbermachen.

Das L.I.F.T.-Modell für A/B-Testing

Es gibt das Lift-Modell – entwickelt von Widerfunnel. Das ist eine Agentur aus Kanada. Viele Grüße an Rachel. Auf jeden Fall haben die eine ganz witzige Analogie: nämlich sie vergleichen eine Website mit einem Flugzeug. Und ein Flugzeug braucht um fliegen zu können, das erst mal ein paar Basics: zum Beispiel Tragflächen. Das ist so quasi die Darstellung dass überhaupt das Werbeversprechen auf der Seite ohne Tragflächen brauchen wir gar nichts anderes machen ohne Tragflächen können wir da so viel Kerosin rein Pumpen und eine so lange Landebahn Startbahn haben wie wir wollen und was weiß ich. Es wird nicht funktionieren.

Also brauchen wir erst mal Tragflächen und dann gibt es in diesem Modell Dinge die das Flugzeug zum Abheben bringen. Das sind dann solche Sachen wie Vertrauen und klare Struktur und Dinge die das Flugzeug am Boden halten das sind so etwas wie Angst und Ablenkung. Und dann gibt es noch etwas gibt zum Turbo Boost im Flugzeug. Das ist Dringlichkeit und nur noch heute das bringt tatsächlich oft eine ganze Menge wenn es ehrlich gemeint ist darum mal nach Lyft Modell Google gegebenenfalls Lyft Modell wieder fange und Links auch hier unten runter.

In den im Blog und Podcast. Mal angucken und das einfach mal so als Basis Heuristik schon mal umsetzen. Denn ich freue mich auch wenn ich mit Shops Rede die einfach schon mal grundlegend gut gemacht sind und ich dann nicht mit den absoluten Basics anfangen denn Ich, male lieber mit dem etwas kleineren Pinsel als mit der dicken Rolle oder Ich schnitzte lieber mit der Machete durch den Dschungel zu gehen. Und ja aber in jedem Fall mehr Conversions wünsche ich. Und ich glaube mit den Tipps aus diesem Podcast kannst du ne ganze Menge richtig machen. Eine ganze Menge erreichen Gib mir Feedback in den Kommentaren Podcast. Aber bitte auch auf iTunes und Spotify denn ich freue mich aufs Feedback und ich freue mich auf fünf Sterne.

Mit der Machete durch den Conversion-Dschungel

2 Kommentare

Andreas Wagner

vor 3 Jahren Antworten

Hallo,
die Textvariante dieses Beitrags scheint maschinell transkribiert worden zu sein. Ist leider sehr anstrengend, dies zu lesen. Der Beitrag ist dennoch sehr wertvoll. Evtl. macht es doch Sinn, Korrektur zu lesen und entsprechend zu redaktieren…
LG + Vielen Dank
- A
  
  jdkrueger
  
  vor 2 Jahren Antworten
  
  Das ist jetzt endlich gelöst und wir haben tolle Texte!