Steigere deine eCommerce-Umsätze mit A/B Testing-Strategien!
Insights

Steigere deine eCommerce-Umsätze
mit A/B Testing-Strategien!

4 Min. Lesezeit

A/B-Testing ist die wissenschaftliche Methode der Conversion-Rate-Optimierung. Zwei Varianten, ein Ziel, eine messbare Differenz. Klingt einfach. Ist es nicht. Die meisten A/B-Tests scheitern — nicht weil die Idee schlecht war, sondern weil die Methodik falsch war.

1

A/B-Testing im E-Commerce: Ein Praxisleitfaden

Wir haben in über 200 Projekten A/B-Tests durchgeführt. Die Trefferquote liegt bei ca. 35 Prozent — also gewinnt etwa jeder dritte Test. Das ist über dem Branchendurchschnitt von 20–25 Prozent. Der Unterschied liegt nicht in besseren Ideen. Er liegt in besserer Methodik.

Dieser Artikel zeigt die Methodik, die wir nutzen — und die häufigsten Fehler, die wir vermeiden.

2

Schritt 1: Die Hypothese — Testbar und falsifizierbar

Eine gute Hypothese hat drei Eigenschaften:

1. Sie ist spezifisch. „Wir ändern den Button“ ist keine Hypothese. „Wenn wir den CTA-Button von Grün auf Rot ändern, dann steigt die Conversion um 10 Prozent, weil Rot mehr Aufmerksamkeit erzeugt“ ist eine Hypothese.

2. Sie ist testbar. Es muss eine klare Metrik geben, an der Erfolg oder Misserfolg gemessen wird.

3. Sie ist falsifizierbar. Es muss ein Ergebnis geben, das die Hypothese widerlegt. Wenn jede mögliche Ausgabe als „Erfolg“ interpretiert wird, ist es keine Hypothese — es ist eine Wunschvorstellung.

Ein häufiger Fehler: Hypothesen, die zu breit sind. „Wir optimieren die Landing Page“ ist nicht testbar. „Wenn wir die Headline von ‚Produkt X‘ auf ‚Lösen Sie Problem Y in 5 Minuten‘ ändern, dann steigt die Conversion um 15 Prozent“ ist testbar.

3

Schritt 2: Die Sample Size — Größer als gedacht

Die meisten Shops beenden Tests zu früh. Sie sehen nach einer Woche, dass Variante B 20 Prozent besser abschneidet, und beenden den Test. Das ist ein Fehler. Die 20 Prozent können ein statistisches Zucken sein — verursacht durch einen Ausreißer-Tag, eine ungewöhnliche Traffic-Quelle, oder Zufall.

Wir nutzen einen Sample-Size-Calculator. Für einen Shop mit 2 Prozent Baseline-Conversion und einem minimal detectable effect von 15 Prozent braucht man ca. 6.400 Besucher pro Variante. Bei 50/50 Split sind das 12.800 Besucher gesamt. Bei 1.000 Besuchern pro Tag dauert der Test also mindestens 13 Tage.

Ein Elektronik-Shop beendete einen Test nach 5 Tagen — Variante B lag 18 Prozent vorn. Wir rieten davon ab, aber der Shop bestand. Nach der Implementierung sank die Conversion um 4 Prozent. Der „Gewinner“ war ein statistischer Zufall. Der Test hätte 18 Tage laufen müssen, um Signifikanz zu erreichen.

4

Schritt 3: Die Signifikanz — 95 Prozent ist das Minimum

Die statistische Signifikanz gibt an, wie wahrscheinlich es ist, dass das Ergebnis nicht zufällig ist. 95 Prozent bedeutet: Mit 95 Prozent Wahrscheinlichkeit ist der beobachtete Effekt echt. 5 Prozent bleiben als Fehlerwahrscheinlichkeit.

Wir akzeptieren nur Tests mit 95 Prozent Signifikanz. Manche Shops nutzen 90 Prozent, um schneller zu implementieren. Das bedeutet: Jeder zehnte „Gewinner“ ist in Wahrheit ein Zufall. Auf Dauer zerstört das das Vertrauen in das Test-Programm.

Ein Fashion-Shop testete 12 Varianten in einem Jahr mit 90-Prozent-Signifikanz. 7 wurden implementiert. Nach 6 Monaten zeigte die Analyse: 3 der 7 „Gewinner“ hatten langfristig einen negativen Effekt. Der Shop hatte Zufallsergebnisse implementiert. Seitdem nutzt er 95 Prozent.

5

Schritt 4: Die Isolation — Ein Test, eine Variable

Der größte methodische Fehler: Mehrere Änderungen in einem Test. Wenn Du den Button-Farb, den Button-Text und die Button-Position gleichzeitig änderst, weißt Du nach dem Test nicht, was den Effekt verursacht hat.

Ein Supplement-Shop testete eine „Optimierungs-Variante“ mit 12 gleichzeitigen Änderungen: neues Design, neue Farben, neue CTAs, neue Bilder, neue Bewertungsanzeige. Die Variante gewann um 22 Prozent. Aber welche der 12 Änderungen war verantwortlich? Die Hälfte hätte vielleicht einen negativen Effekt — der wurde nur von den anderen überkompensiert.

Wir testen maximal 2–3 verwandte Änderungen gleichzeitig. Wenn wir mehrere Hypothesen haben, laufen sie als separate Tests. Das dauert länger. Aber es liefert Erkenntnisse, die für zukünftige Tests nutzbar sind.

6

Schritt 5: Die Dokumentation — Wissen speichern

Ein Test, der nicht dokumentiert ist, ist verschwendet. Denn der nächste Tester weiß nicht, was der vorherige gelernt hat. Wir dokumentieren jeden Test in einem zentralen Wiki:

– Hypothese.
– Variante (Screenshots).
– Ergebnis (Gewinner/Verlierer/Unentschieden).
– Statistische Signifikanz.
– Laufzeit.
– Learnings (warum hat es funktioniert/nicht funktioniert?).

Ein Beauty-Shop baute nach zwei Jahren ein Wiki mit 140 Tests. Die Trefferquote stieg von 25 auf 55 Prozent. Die Analysten kannten die Historie. Sie wussten, welche Hypothesen in dieser Branche funktionierten und welche nicht.

7

Fazit: A/B-Testing ist keine Glückssache — es ist Methodik

Die fünf Schritte in diesem Artikel — Hypothese, Sample Size, Signifikanz, Isolation, Dokumentation — scheinen offensichtlich. Aber die meisten Shops überspringen mindestens einen. Sie testen ohne Hypothese. Sie beenden zu früh. Sie akzeptieren zu niedrige Signifikanz. Sie ändern zu viel auf einmal. Sie dokumentieren nicht.

Wer alle fünf Schritte befolgt, gewinnt nicht jeden Test. Aber er gewinnt das System. Mit jedem Test wird das Wiki größer, die Hypothesen besser, die Trefferquote höher. Das ist der wahre Wert von A/B-Testing: nicht der einzelne Gewinner, sondern das wachsende Verständnis des Kunden.

Zuletzt aktualisiert: Mai 2026

Jörg Dennis Krüger
Jörg Dennis Krüger
Autor & Conversion-Experte
Kennenlernen

Bereit für mehr Umsatz?

Starten Sie die 14-tägige Pilot-Phase. Kostenlos. Ohne Vertragsbindung. Wir beweisen unseren Wert, bevor Sie investieren.

Wissen & Methode

Ähnliche Artikel