Was ist A/B-Testing ist die methodische Gegenüberstellung zweier Versionen einer Webseite, eines Elements oder eines Nutzerflusses, um objektiv zu messen, welche Variante eine höhere Revenue Per User (RPU) erzielt. Für Online-Shop-Betreiber definiert A/B-Testing den Weg, systematisch und datenbasiert Entscheidungen zu treffen und dadurch den Umsatz nachhaltig zu steigern, statt sich auf Zufall oder Intuition zu verlassen.
Warum die meisten A/B-Tests scheitern (und was das kostet)
Drei von vier A/B-Tests führen überraschenderweise zu keinem wirklichen oder schlimmer noch, zu einem falschen Gewinner. Das liegt daran, dass viele Shop-Betreiber weiterhin nach Bauchgefühl optimieren.
Entscheidungen basierend auf „Best Practices“ oder persönlichen Vorlieben sind riskant. Studien von erfahrenen CRO-Experten zeigen jedoch, dass selbst Profis in bis zu 60% ihrer Hypothesen falsch liegen. Ohne präzises Testverfahren bleiben diese Fehler unentdeckt – und kosten Umsatz.
RPU als Kompass: Warum Revenue Per User über allem steht
Die Primärmetrik für jeden A/B-Test ist Revenue Per User (RPU). Diese Kennzahl beschreibt den direkten Umsatz pro Besucher und gibt an, ob eine Veränderung wirklich mehr Geld einbringt.
Ein häufiger Fehler ist die ausschließliche Fokus auf die Conversion Rate (CR). Ein Test kann die CR zwar um 10% steigern, gleichzeitig aber den Average Order Value (AOV) um 15% senken. Das Ergebnis: Umsatzverlust.
Wir messen alle Testergebnisse primär an RPU. Steigt die RPU, ist es ein Gewinner – selbst wenn die CR leicht sinken sollte, weil beispielsweise teurere Produkte besser verkauft werden. Nur RPU zeigt den wahren finanziellen Impact.
Der denkMETHODISCHE Prozess: Systematik statt Glückstreffer
Professionelles A/B-Testing ist ein strukturierter Prozess, der Meinungen durch belegbare Daten ersetzt. Die thinkCONVERSION-Methodik führt vom Problem zur geprüften Lösung.
1. Analyse und Hypothesenbildung: Das „Warum“ verstehen
Jeder Test beginnt mit einem im Datensatz belegbaren Problem. Tools wie Google Analytics 4, Hotjar oder CRM-Systeme zeigen, wo Kunden im Kaufprozess abbrechen.
Anschließend formulieren wir eine präzise, falsifizierbare Hypothese. Das Format: „Wenn wir [Element X] durch [Element Y] ersetzen, wird [Metrik Z] steigen, weil [psychologischer oder datenbasierter Grund].“ Vage Formulierungen wie „die Seite soll besser werden“ sind unwirksam.
2. Test-Konfiguration: Eine Variable, maximale Kontrolle
Für den Test teilen wir den Traffic zufällig und gleichmäßig auf (50/50 Split) in eine Kontrollgruppe (Variante A: Original) und eine Testgruppe (Variante B: unsere Änderung).
Entscheidend: Pro Test darf nur eine einzige Variable geändert werden. Wer gleichzeitig Headline, Bild und Button-Farbe modifiziert, kann den Erfolg am Ende keinem Einzelelement zuordnen. Das macht das Ergebnis nutzlos.
| Häufiger Testfehler | Korrekte Vorgehensweise | Konsequenz für RPU |
|---|---|---|
| Mehrere Elemente gleichzeitig geändert (z.B. Headline, Bild, Preis) | Nur ein Element pro Test geändert (z.B. nur die Produktbeschreibung) | Klare Kausalität – Sie wissen, *was* die RPU beeinflusst |
| Test ohne präzise Hypothese („Ich glaube…“) | Test mit spezifischer, falsifizierbarer Hypothese | Gezieltes Lernen – Sie verstehen das *Warum* des RPU-Anstiegs |
| Test vor Erreichen der notwendigen Datenmenge abgebrochen („Peeking“) | Test bis zur definierten Wahrscheinlichkeit (Bayesianisch) laufen lassen | Valide Ergebnisse – Sie vermeiden das Risiko von „False Positives“ und RPU-Verlusten |
3. Bayesianische Auswertung: Wahrscheinlichkeiten statt Zufall
Wir verzichten bewusst auf die veraltete Idee der „statistischen Signifikanz“ (p-Wert-Denken). Stattdessen nutzen wir bayesianische Statistik, die jederzeit eine direkte, intuitive Wahrscheinlichkeit liefert, wie wahrscheinlich Variante B besser ist als A.
Das Ergebnis ist klar: „Variante B hat eine 92% Wahrscheinlichkeit, einen höheren RPU zu generieren.“ Wir fahren den Test so lange, bis diese Gewinn-Wahrscheinlichkeit 90-95% erreicht. So wird jede Entscheidung sicher.

Jörg Dennis Krüger
Diese transparente Vorgehensweise eliminiert das Problem des „Peeking“, also des verfrühten Testabbruchs, der zu falschen „Gewinnern“ führt. Peeking ist ein Hauptgrund für vermeintliche Optimierungserfolge, die in Wahrheit Umsatz kosten.
Das überraschende Potenzial: Navigation und Kategoriestruktur testen
Viele Online-Shop-Betreiber halten ihre Navigations- und Kategoriestruktur für einen unveränderlichen Pfeiler des Shops. Doch genau hier liegt oft ungenutztes Potenzial. Mithilfe von Template-Tests können komplette Shopbereiche gleichzeitig optimiert werden – mit enormem Hebel.
Stellen Sie sich vor, Sie testen eine vereinfachte Hauptnavigation oder eine alternative Kategoriestruktur. Ein A/B-Test kann belegen, ob ein Mega-Menü oder ein einfaches Dropdown oder eine prominent platzierte Suchlösung für Ihre spezifischen Kunden den RPU steigert. Das zeigen Tests regelmäßig: Weniger Ablenkung führt fast immer zu mehr Fokus auf der Kaufentscheidung.
Diese Methode spart immense Ressourcen: Sie müssen nicht jede einzelne Seite anpassen, sondern optimieren das zugrundeliegende Template. Das ist A/B-Testing mit maximaler Hebelwirkung und minimalem manuellem Aufwand – ein oft unterschätztes Szenario.
Der A/B-Testing-Bogen: Daten statt Gewissheiten
Wir liefern keine absoluten Empfehlungen darüber, was „immer“ funktioniert. Wenn behauptet wird, „rote CTAs konvertieren besser“, ist das eine riskante Verallgemeinerung. Es hängt vom Kontext der Seite und der Zielgruppe ab.
Unsere Haltung: Tests zeigen regelmäßig bestimmte Tendenzen. Aber der ultimative Beleg für *Ihren* Shop kommt nur aus *Ihren* eigenen Daten – durch einen A/B-Test. Was bei Shop A +20% RPU bringt, kann bei Shop B wirkungslos sein. Deswegen testen wir.
Statt zu raten: A/B-Test. Statt zu glauben: Daten. Dieser Grundsatz differenziert systematisches CRO von vagen Marketing-Weisheiten und stellt sicher, dass jede Optimierung einen realen finanziellen Effekt hat.
Häufige Fragen zu Was ist A/B-Testing
FAQ: Häufige Fragen zu A/B-Testing
Was genau ist A/B-Testing?
A/B-Testing ist ein Experiment, bei dem zwei Versionen (A und B) einer Webpage oder eines Elements gleichzeitig an verschiedene, zufällig ausgewählte Nutzergruppen ausgespielt werden. Ziel ist es, durch die Messung von Metriken wie Revenue Per User (RPU) festzustellen, welche Version die bessere Performance erzielt.
Warum ist RPU die entscheidende Metrik im A/B-Testing?
RPU (Revenue Per User) ist entscheidend, weil es direkt den erzeugten Umsatz pro Besucher misst. Im Gegensatz zur reinen Conversion Rate berücksichtigt RPU auch den Wert der einzelnen Verkäufe (Average Order Value). Das stellt sicher, dass optimierte Elemente nicht nur zu mehr Käufen, sondern auch zu mehr Gewinn führen.
Wie lange sollte ein A/B-Test idealerweise laufen?
Ein A/B-Test sollte mindestens zwei volle Geschäftswochen laufen, um tägliche oder wöchentliche Schwankungen im Nutzerverhalten (z.B. Wochenendkäufe) auszugleichen. Zudem ist es wichtig, genügend Daten für eine valide bayesianische Auswertung zu sammeln.
Was bedeutet bayesianische Statistik im A/B-Testing?
Bayesianische Statistik im A/B-Testing berechnet kontinuierlich die Wahrscheinlichkeit, dass eine Testvariante (B) besser performt als das Original (A). Dies führt zu einer klaren Aussage („Variante B hat eine 90%ige Wahrscheinlichkeit zu gewinnen“) und vermeidet Fehler wie das „Peeking“ (vorzeitigen Testabbruch) der traditionellen (frequentistischen) p-Wert-Messung.
Kann man auch komplexe Änderungen wie eine neue Navigation testen?
Ja, komplexe Design- oder Navigationsänderungen können effektiv durch sogenannte Template-Tests überprüft werden. Dabei werden Änderungen nicht auf einzelnen Seiten, sondern auf einem zugrundeliegenden Template vorgenommen, dessen Auswirkungen sich auf alle Seiten desselben Typs erstrecken. Dies bietet hohe Hebelwirkung bei effizientem Aufwand.
Welche häufigen Fehler sollte man beim A/B-Testing vermeiden?
Vermeiden Sie das Testen ohne klare Hypothese, das Ignorieren von RPU als Primärmetrik, das Verändern mehrerer Elemente gleichzeitig und das vorzeitige Abbrechen von Tests („Peeking“). Auch das blinde Übernehmen von „Best Practices“ ohne eigene Validierung ist ein typischer Fehler, der den Umsatz kosten kann.
Lohnt sich A/B-Testing auch für kleinere Online-Shops?
Ja, A/B-Testing ist auch für kleinere Shops wertvoll, sofern ausreichend Traffic für statistisch valide Ergebnisse vorhanden ist. Der Fokus sollte dann auf den Seiten mit dem höchsten Umsatzpotenzial liegen (z.B. Produktdetailseiten, Checkout) und gegebenenfalls auf radikaleren Hypothesen, um schneller zu messbaren Effekten zu kommen.
Autor: Jörg Dennis Krüger



