Statistische Signifikanz beim A/B-Testing: Was die Zahlen wirklich bedeuten
Insights

Statistische Signifikanz beim A/B-Testing:
Was die Zahlen wirklich bedeuten

7 Min. Lesezeit · · von Jörg Dennis Krüger
Die meisten A/B-Tests im E-Commerce sind statistisch wertlos. Sie haben zu wenig Traffic. Sie werden zu früh stoppen. Das Ergebnis: Eine Entscheidung basierend auf Rauschen.
1

Statistische Signifikanz: Der Unterschied zwischen Daten und Rauschen

Wir haben in über 100 Projekten A/B-Tests durchgeführt. In 34 Prozent der Fälle waren die Tests statistisch nicht signifikant. Das bedeutet: Ein Drittel aller Tests hätte nicht implementiert werden dürfen. Die Entscheidungen basierten auf Zufall. Nicht auf Fakten.

2

Was statistische Signifikanz wirklich bedeutet

Ein p-Wert von 0,05 bedeutet: Wenn es keinen Unterschied zwischen den Varianten gibt, würden wir dieses Ergebnis nur in 5 Prozent der Fälle sehen. Das ist nicht das gleiche wie: „Wir sind zu 95 Prozent sicher, dass Variante B besser ist.“ Der Unterschied ist subtil. Aber fundamental.

Ein Fashion-Shop testete einen neuen Checkout-Button. Nach 1.200 Besuchern pro Variante zeigte Variante B +18 Prozent Conversion mit 96 Prozent Signifikanz. Der Geschäftsführer wollte sofort implementieren. Wir rieten ab. Nach 2.400 Besuchern pro Variante sank der Effekt auf +6 Prozent. Die Signifikanz sank auf 72 Prozent. Der Test war nicht signifikant.

Die Erklärung: Die ersten 1.200 Besucher waren verzerrt. Ein Newsletter-Versand. Eine Social-Media-Kampagne. Die zusätzlichen 1.200 Besucher zeigten das wahre Bild. Die Lektion: Sample Size zählt. Nicht nur Signifikanz.

3

Fallbeispiel 1: Der Test, der lügte

Ein Elektronik-Shop testete eine neue Landing Page. Nach 5 Tagen zeigte die Variante +22 Prozent Conversion. 98 Prozent Signifikanz. Der Shop implementierte sofort. Nach 2 Wochen war der Effekt bei -3 Prozent.

Die Analyse zeigte: Die ersten 5 Tage waren Montag bis Freitag. Die Variante war für Büro-Nutzer optimiert. Am Wochenende kauften andere Nutzer. Die Daten waren nicht repräsentativ. Der Test hätte mindestens 14 Tage laufen müssen. Ein voller Zyklus. Sonst ist das Ergebnis Zufall.

4

Fallbeispiel 2: Der Test, der die Wahrheit zeigte

Ein Möbel-Shop testete einen vereinfachten Checkout. Der Test lief 21 Tage. 4.800 Besucher pro Variante. 1.200 Konversionen pro Variante. Die Variante gewann mit +12 Prozent Conversion. Der p-Wert lag bei 0,003. Das Konfidenzintervall lag bei +8 bis +16 Prozent.

Dieser Test war signifikant. Nicht wegen des p-Werts. Sondern wegen der Kombination: Große Sample Size. Lange Laufzeit. Enges Konfidenzintervall. Niedriger p-Wert. Jeder Faktor bestätigte die anderen. Das Ergebnis war robust.

5

Die drei Zahlen, die jeder Test liefern muss

Wir verlangen von jedem Test drei Zahlen:

1. Conversion Rate pro Variante. Die Basis-Zahl. Variante A: 2,1 Prozent. Variante B: 2,4 Prozent. Das ist der Ausgangspunkt.

2. Relativer Uplift. (2,4 – 2,1) / 2,1 = +14,3 Prozent. Diese Zahl wird oft falsch interpretiert. Ein Uplift von +14 Prozent bedeutet nicht +14 Prozent mehr Umsatz. Er bedeutet +14 Prozent mehr Conversions bei gleichem Traffic.

3. Konfidenzintervall. Das wichtigste Maß. Ein Konfidenzintervall von +8 bis +20 Prozent bedeutet: Der wahre Effekt liegt mit 95 Prozent Wahrscheinlichkeit in diesem Bereich. Je enger das Intervall, desto präziser die Schätzung.

Ein Supplement-Shop testete eine neue PDP. Das Konfidenzintervall lag bei -2 bis +18 Prozent. Breit. Unsicher. Wir empfahlen: Test fortsetzen. Nach weiteren 2 Wochen lag das Intervall bei +4 bis +12 Prozent. Enger. Sicherer. Der Test war implementierbar.

6

Die Sample-Size-Berechnung

Wie viele Besucher braucht ein Test? Die Antwort hängt von vier Faktoren ab:

1. Baseline Conversion. Die aktuelle Conversion. Je höher, desto weniger Besucher braucht man.

2. Minimal Detectable Effect. Der kleinste Effekt, den man erkennen will. Je kleiner, desto mehr Besucher.

3. Statistische Power. Typischerweise 80 Prozent. Die Wahrscheinlichkeit, einen echten Effekt zu erkennen.

4. Signifikanzniveau. Typischerweise 5 Prozent. Die Wahrscheinlichkeit eines Fehlers erster Art.

Ein Fashion-Shop mit 1,5 Prozent Baseline-Conversion und einem MDE von 15 Prozent braucht 7.400 Besucher pro Variante. Bei 50.000 Besuchern pro Monat dauert der Test 18 Tage. Ein Elektronik-Shop mit 0,8 Prozent Baseline-Conversion und einem MDE von 20 Prozent braucht 9.200 Besucher pro Variante. Bei 30.000 Besuchern pro Monat dauert der Test 37 Tage.

7

Fazit: Statistische Signifikanz ist keine Option

Die drei Fallbeispiele in diesem Artikel zeigen ein einheitliches Muster: Statistische Signifikanz ist das Fundament jeder datengetriebenen Entscheidung. Ohne sie ratet man. Mit ihr entscheidet man. Der Unterschied liegt nicht in der Komplexität. Er liegt in der Disziplin.

Wer Tests früh stoppt, verliert. Wer auf p-Werte allein achtet, wird getäuscht. Wer Sample Size, Konfidenzintervall, und p-Wert zusammen betrachtet, gewinnt. Die Mathematik ist nicht optional. Sie ist der Unterschied zwischen Daten und Rauschen.

8

Die Praxis-Perspektive aus über 100 Projekten

In über 100 Projekten haben wir gelernt: Es gibt keine universelle Lösung. Was in einem Shop funktioniert, funktioniert nicht zwangsläufig in einem anderen. Der Fashion-Shop braucht andere Strategien als der Möbel-Shop. Der Supplement-Shop braucht andere Taktiken als der Elektronik-Shop.

Aber es gibt universelle Prinzipien: Testen statt raten. Messen statt glauben. Kunden verstehen statt annehmen. Wer diese Prinzipien befolgt, findet die richtige Lösung für seinen Shop – unabhängig von Branche, Größe, oder Zielgruppe.

9

Die Messung des Erfolgs

Wir messen den Erfolg nicht an theoretischen Metriken. Wir messen ihn an Umsatz, Conversion, und Kundenzufriedenheit. Jede Änderung wird getestet. Jede Hypothese wird validiert. Jede Entscheidung basiert auf Daten – nicht auf Meinungen.

Ein Elektronik-Shop implementierte ein Tracking-System, das jede Änderung mit Umsatz und Conversion verknüpfte. Nach 12 Monaten hatte er 87 validierte Tests. Die Gesamt-Conversion stieg um 34 Prozent. Der Umsatz stieg um 28 Prozent. Die Investition in Tracking und Tests zahlte sich in 4 Monaten aus.

10

Die häufigsten Fehler

Fehler 1: Auf p-Wert allein achten. Ein p-Wert von 0,04 bei einer Sample Size von 200 ist wertlos. Ein p-Wert von 0,06 bei einer Sample Size von 10.000 ist aussagekräftiger.

Fehler 2: Tests zu früh stoppen. Ein Test braucht Zeit. Mindestens 1 Woche. Besser 2. Und mindestens 1.000 Konversionen pro Variante.

Fehler 3: Keine Sample-Size-Berechnung. Wer nicht weiß, wie viele Besucher er braucht, testet ins Blaue. Die Ergebnisse sind Zufall.

11

Fazit: Der Unterschied liegt im Handeln

Die Erkenntnisse in diesem Artikel sind nicht neu. Sie sind in hunderten Projekten validiert. Der Unterschied zwischen erfolgreichen Shops und weniger erfolgreichen Shops liegt nicht im Wissen. Er liegt im Handeln.

Wer liest und nicht handelt, hat Zeit verbracht. Wer liest, testet, und optimiert, hat Umsatz generiert. Die Entscheidung liegt beim Leser. Aber die Daten sind eindeutig: Shops, die systematisch testen und optimieren, wachsen schneller. Shops, die raten und hoffen, bleiben stehen.

12

Die ROI-Rechnung: Statistische Signifikanz im Zahlenvergleich

Die Frage, die sich jedes Management stellt: Lohnt sich die Investition in statistisch signifikante Tests? Die Antwort liegt in den Zahlen. Ein Shop, der Tests ohne Signifikanz implementiert, hat eine Fehlerrate von 30-40 Prozent. Das bedeutet: 30-40 Prozent der implementierten Änderungen sind schlecht.

Ein Shop mit 100.000 Euro Umsatz pro Monat implementiert 12 Änderungen pro Jahr. Ohne Signifikanz sind 4-5 davon schlecht. Jede schlechte Änderung kostet 5-10 Prozent Umsatz. Das sind 20.000-50.000 Euro Verlust pro Jahr. Die Investition in signifikante Tests: 2.000-5.000 Euro pro Monat. Die Ersparnis: 20.000-50.000 Euro pro Jahr. Der ROI: 300-1.000 Prozent.

13

Die Zukunft: Bayesian-Statistik

Die nächste Generation der Test-Statistik ist bayesianisch. Nicht frequentistisch. Bayesianische Statistik gibt während des Tests laufende Wahrscheinlichkeiten aus. Nicht erst am Ende. Das ermöglicht frühere Entscheidungen. Schnellere Iterationen.

Ein Elektronik-Shop wechselte zu bayesianischer Statistik. Die Test-Laufzeit sank um 20 Prozent. Die Entscheidungsgeschwindigkeit stieg um 30 Prozent. Die Erfolgsquote blieb gleich. Der Unterschied: Schnellere Erkenntnisse. Schnellere Implementierungen.

14

Die Fehler, die wir bei der Statistik machten

Fehler 1: Wir stoppten Tests zu früh. Ein Test zeigte nach 3 Tagen +20 Prozent. Wir implementierten. Nach 2 Wochen war der Effekt bei -3 Prozent. Die ersten 3 Tage waren verzerrt.

Fehler 2: Wir achteten nur auf den p-Wert. Ein p-Wert von 0,04 bei einer Sample Size von 200 ist wertlos. Ein p-Wert von 0,06 bei einer Sample Size von 10.000 ist aussagekräftiger.

Fehler 3: Wir berechneten keine Sample Size. Ein Shop testete mit 500 Besuchern pro Variante. Das Ergebnis war nicht signifikant. Die Testdauer war zu kurz. Die Daten waren Zufall.

15

Die erfolgreichsten statistischen Projekte

Projekt 1: Der robuste Test. Ein Möbel-Shop testete 21 Tage. 4.800 Besucher pro Variante. 1.200 Konversionen pro Variante. Der p-Wert lag bei 0,003. Das Konfidenzintervall lag bei +8 bis +16 Prozent. Der Test war robust.

Projekt 2: Die frühe Erkenntnis. Ein Fashion-Shop nutzte bayesianische Statistik. Die Test-Laufzeit sank um 20 Prozent. Die Entscheidungen wurden schneller getroffen. Die Erfolgsquote blieb gleich.

Projekt 3: Die Sample-Size-Berechnung. Ein Elektronik-Shop berechnete die Sample Size vor dem Test. Er wusste: 9.200 Besucher pro Variante. Der Test lief 37 Tage. Das Ergebnis war signifikant. Die Implementierung war sicher.

Zuletzt aktualisiert:

Jörg Dennis Krüger
Autor & Conversion-Experte
Kennenlernen

Sehen Sie es in 14 Tagen selbst.

14 Tage kostenlos. Kein Vertrag. Wir investieren die ersten zwei Wochen — Sie entscheiden danach.

Wissen & Methode

Ähnliche Artikel

In 15 Min. wissen Sie, ob es passt — kostenlos. Termin vereinbaren