Was A/B-Testing wirklich leistet – jenseits des Hypes
Ein A/B-Test ist kein Design-Wettbewerb, sondern ein statistisches Experiment. Er beantwortet eine einzige Frage: Führt Variante B signifikant öfter zur gewünschten Aktion als Variante A? Alles andere – ästhetische Vorlieben, interne Meinungen, Annahmen des Marketingleiters – ist irrelevant.
Die Hypothese als Fundament jedes Tests
Ohne Hypothese testen Sie ins Blaue. Eine valide Test-Hypothese folgt einer klaren Struktur: „Wenn wir [Element X] ändern, dann wird [Metrik Y] steigen/sinken, weil [psychologischer oder verhaltensbasierter Grund Z].“ Ein Beispiel: „Wenn wir den Checkout-Button auf der Mobilversion von Grün auf Blau ändern und 20 % größer gestalten, dann steigt die Conversion-Rate um mindestens 5 %, weil die Zielgruppe im Alter von 25–45 Jahren blaue Elemente als vertrauenswuerdiger wahrnimmt und die größere Touch-Fläche Fehleingaben reduziert.“
Schwache Hypothesen klingen anders: „Wir testen mal eine neue Farbe.“ Das ist keine Hypothese, sondern eine Vermutung ohne Erklaerungskraft. Schwache Hypothesen produzieren nicht reproduzierbare Ergebnisse.
Testdauer und Stichprobengröße: Die Mathematik hinter validen Ergebnissen
Die häufigste Fehlerquelle im A/B-Testing ist die unzureichende Laufzeit. Ein Test, der nach 500 Besuchern abgebrochen wird, liefert in der Regel Zufallsrauschen. Für statistisch signifikante Aussagen bei einer Baseline-Conversion von 2 % und einem erwarteten Effekt von 10 % benötigen Sie pro Variante mindestens 12.000 Besucher.
Die Testdauer berechnet sich nach folgender Faustformel:
- Mindestens 1–2 volle Geschäftszyklus-Wochen (Montag bis Sonntag), um Wochentagseffekte auszugleichen
- Mindestens 100 Conversions pro Variante – besser 500
- Keine frühzeitigen Abbrüche, auch wenn eine Variante nach 3 Tagen mit 95 % signifikant führt
Warum? Nutzerverhalten variiert stark zwischen Wochenende und Werktag. Ein Test, der nur unter der Woche läuft, erfasst keine Freizeit-Shopper mit anderem Kaufverhalten. Eine Studie von Microsoft aus dem Jahr 2012 zeigte, dass Tests mit weniger als einer Woche Laufzeit in 41 % der Faelle das gegenteilige Ergebnis zeigten, wenn sie um eine weitere Woche verlängert wurden.
Statistische Signifikanz vs. praktische Relevanz
Ein p-Wert von 0,03 bedeutet, dass das Ergebnis statistisch signifikant ist. Das sagt jedoch nichts darüber aus, ob es wirtschaftlich relevant ist. Ein Test, der die Conversion-Rate von 2,00 % auf 2,04 % steigert, ist bei 100.000 Besuchern zwar signifikant, aber der zusätzliche Umsatz von 32 € pro Monat rechtfertigt keine Implementierungskosten.
Definieren Sie vor jedem Test einen Minimal Detectable Effect (MDE). Typische MDEs im E-Commerce liegen bei:
Die sieben tödlichen Sünden des A/B-Testings
- Peeking ohne Korrektur: Wer täglich auf das Dashboard schaut und bei Erreichen der Signifikanz stoppt, produziert falsch-positive Ergebnisse. Nutzen Sie Sequential Testing oder warten Sie auf die vordefinierte Stichprobengröße.
- Mehrfachtests ohne Bonferroni-Korrektur: Wer 20 Varianten testet, wird statistisch gesehen eine zufällig signifikante finden. Die Fehlerrate steigt exponentiell.
- Segment-Slicing: Ein Test, der insgesamt nicht signifikant ist, wird nachträglich auf „Mobile Nutzer aus Bayern“ geschnitten, bis eine Signifikanz gefunden wird. Das ist Data Mining, kein Testing.
- Cookie-Löschung ignorieren: Wenn 30 % Ihrer Nutzer Cookies löschen, können sie zwischen Variante A und B hin- und herwechseln. Server-Side-Testing oder User-ID-basiertes Tracking lösen dies.
- Fehlende Qualitätssicherung: Variante B, die auf iOS 15 nicht lädt, verfälscht das Ergebnis. Cross-Browser- und Cross-Device-Tests vor dem Livegang sind Pflicht.
- Keine Dokumentation: Teams, die keine Test-Datenbank pflegen, wiederholen Fehler. Ein einfaches Notion- oder AirTable-Board reicht.
- Gewinner ohne Follow-up-Test implementieren: Ein einmaliger Test beweist keine Kausalität. Replizieren Sie signifikante Ergebnisse in einem zweiten Testlauf.
A/B-Testing als kontinuierlicher Prozess, nicht als Projekt
Die erfolgreichsten E-Commerce-Unternehmen führen nicht gelegentlich Tests durch – sie betreiben ein Testing-Programm. Booking.com führt täglich über 1.000 parallele Experimente durch. Amazon testet jedes neue Feature mindestens gegen die aktuelle Version. Diese Kultur des Experimentierens ist kein Luxus, sondern ein Überlebensmechanismus in Maerkten mit geringen Margen.
Für mittelständische Shops empfehlen sich folgende Eckpunkte:
- Mindestens 2–4 laufende Tests pro Quartal
- Ein dedizierter Testing-Budget von 5–10 % des Marketing-Budgets
- Ein verantwortlicher Test-Owner, der Hypothesen priorisiert, Tests implementiert und Ergebnisse kommuniziert
- Regelmäßige Test-Reviews im Quartalsrhythmus
ROI und Business Case
Berechnen Sie den Business Case vor der ersten Test-Investition. Ein Shop mit 50.000 Besuchern pro Monat, 2,5 % Conversion und 75 € durchschnittlichem Bestellwert generiert monatlich 93.750 € Umsatz. Eine konservative Conversion-Steigerung um 8 % durch systematisches Testing bringt 7.500 € zusätzlichen Umsatz pro Monat – bei einem jährlichen Tool-Investment von 3.000 € und einem halben Tag interner Ressourcen pro Woche.
Die Formel für Ihren Business Case:
Jaehrlicher Testing-ROI = (Zusätzlicher Umsatz × Marge) – (Tool-Kosten + Personalkosten)
Ab-tests sind der Weg zu mehr Umsatz, weil sie echtes Kundenverhalten offenbaren statt Vermutungen zu bestätigen.
Zuletzt aktualisiert: Mai 2026