A/B-Testergebnisse richtig lesen

Q: Was bedeutet p-Wert < 0,05?

Es bedeutet: Wenn es in Wahrheit keinen Unterschied gibt, würden wir dieses Ergebnis (oder ein extremeres) nur in 5% der Faelle sehen. Es ist KEINE Garantie, dass Variante B besser ist. Es ist nur ein Schutz gegen Fehlalarme. Ein P-Wert von 0,049 ist technisch signifikant, aber knapp. Ein P-Wert von 0,001 ist stark signifikant.

Q: Kann ich einen Test früh stoppen wenn er deutlich gewinnt?

Nein. Das ist der "Peeking Problem". der teuerste Fehler im A/B-Testing. Wenn Sie mehrmals auf die Ergebnisse schauen und bei "Signifikanz" stoppen, erhöhen Sie die Fehlerwahrscheinlichkeit massiv. Ein Test der bei 95% Confidence geplant war, hat bei 5-maligem "Peeking" eine tatsächliche Fehlerwahrscheinlichkeit von ca. 20%. Sie implementieren also 4× so oft falsche Gewinner.

Q: Was ist ein Confidence Interval?

Das Confidence Interval gibt den Bereich an, in dem der wahre Effekt mit einer bestimmten Wahrscheinlichkeit (meist 95%) liegt. Ein +10% Uplift mit 95%-CI von +2% bis +18% bedeutet: Wir sind zu 95% sicher, dass der wahre Effekt irgendwo zwischen +2% und +18% liegt. Enthaelt das Interval die Null (z.B. -1% bis +11%), ist das Ergebnis nicht signifikant. es könnte auch null oder negativ sein.

Q: Soll ich Tests auf Segment-Ebene auswerten?

Ja, immer. Ein Test der insgesamt +5% zeigt, kann auf Mobile +20% und auf Desktop -5% zeigen. Wenn Sie nur die Gesamtzahl betrachten, implementieren Sie eine Änderung die Ihren Desktop-Traffic schädigt. Die wichtigsten Segmente: Device (Desktop/Mobile/Tablet), Traffic-Quelle (Organic/Paid/Direct), und Kundentyp (Neu/Stamm). Aber Achtung: Je kleiner das Segment, desto breiter das Confidence Interval. Ein Segment mit 500 Besuchern hat keine aussagekräftige Statistik.

Q: Was tun wenn der Test "inconclusive" ist?

Ein "inconclusive"-Ergebnis (kein signifikanter Unterschied) ist kein Fehler. es ist eine Information. Es bedeutet: Die getestete Änderung hat keinen nachweisbaren Effekt. Das ist wertvoll. Sie vermeiden die Implementierung einer Änderung die nichts bringt. Nächster Schritt: Entweder eine radikalere Variante testen, oder ein anderes Element wählen. Nicht jeder Test muss einen Gewinner produzieren. Ein Test der verhindert, dass Sie eine nutzlose Änderung implementieren, spart Geld.

Q: Wie groß muss die Sample Size sein?

Das hängt von drei Faktoren ab: Baseline Conversion Rate, erwarteter Uplift, und gewünschter Power (meist 80%). Ein Shop mit 2% Conversion Rate und erwartetem +10% Uplift braucht ca. 8.000 Besucher pro Variante. Bei 1% Conversion Rate und erwartetem +5% Uplift brauchen Sie 60.000 pro Variante. Tools wie Evan Miller's Sample Size Calculator oder Optimizely's Calculator helfen bei der Planung. Ohne Sample-Size-Planung starten Sie blind.

Q: Was ist der Unterschied zwischen relativem und absolutem Uplift?

Relativer Uplift: Von 2,0% auf 2,2% Conversion Rate = +10% relativ. Absoluter Uplift: +0,2 Prozentpunkte. Der relative Uplift klingt beeindruckender, aber der absolute Uplift sagt Ihnen, wie viele zusätzliche Käufer Sie wirklich gewinnen. Bei 100.000 Besuchern/Monat sind +0,2 Prozentpunkte = 200 zusätzliche Käufer. Bei 50€ AOV sind das 10.000€ zusätzlicher Umsatz/Monat. Rechnen Sie immer beides aus. der absolute Uplift ist die Sprache des CFOs.

A/B-Testergebnisse richtig lesen: Was die Zahlen wirklich bedeuten

Die drei Zahlen die jeder A/B-Test liefern muss

Ein A/B-Test ist keine Magie. Er ist Mathematik. Und jeder Test muss Ihnen drei Zahlen liefern, sonst ist er wertlos:

1. Conversion Rate pro Variante. Das Verhältnis von Käufern zu Besuchern. Variante A: 2,4%. Variante B: 2,7%. Die Differenz allein sagt noch nichts.

2. Relative Uplift. Die prozentuale Verbesserung. Von 2,4% auf 2,7% sind +12,5% Uplift. Das klingt gut. Aber ist es signifikant?

3. P-Wert und Confidence Interval. Der P-Wert sagt Ihnen, mit welcher Wahrscheinlichkeit das Ergebnis nicht Zufall ist. Ein 95%-Confidence-Interval von +3% bis +22% bedeutet: Wir sind zu 95% sicher, dass der wahre Effekt irgendwo in diesem Bereich liegt. Wenn die Null dabei ist (+3% bis +22% enthält nicht die Null), ist das Ergebnis statistisch signifikant.

Ohne diese drei Zahlen wissen Sie nicht, ob Ihr Test etwas bewiesen hat. oder ob Sie auf Rauschen reagieren.

Statistische Signifikanz: Was 95% wirklich bedeuten

„Statistisch signifikant bei 95%“ bedeutet nicht, dass Sie zu 95% mehr Umsatz machen werden. Das ist der häufigste Irrtum.

Es bedeutet: Wenn es in Wahrheit KEINEN Unterschied zwischen A und B gibt, würden wir dieses Ergebnis (oder ein extremeres) nur in 5% der Faelle sehen. Das ist ein Schutz vor Fehlalarmen. nicht eine Garantie für Erfolg.

In einem Test für einen Modeshop (ca. 80.000 Sessions/Monat) sahen wir einen +18% Uplift nach 10 Tagen. P-Wert: 0,03. also „signifikant“. Doch das Confidence Interval reichte von -2% bis +38%. Die Null war drin. Nach 3 weiteren Wochen stabilisierte sich das Ergebnis bei +7% mit einem Interval von +2% bis +12%. Der anfängliche „Gewinner“ war halb so stark wie gedacht.

Die Lektion: 95% Signifikanz ist ein Mindest-Standard, kein Erfolgsversprechen. Und je kleiner die Stichprobe, desto breiter das Interval. desto unsicherer die Aussage.

Der häufigste Fehler: Zu früh stoppen

Das „Peeking Problem“ ist der teuerste Fehler im A/B-Testing. Sie schauen täglich auf die Ergebnisse. Nach 5 Tagen zeigt Variante B +25% Uplift. Sie stoppen den Test und implementieren B. Nach 4 Wochen ist die Conversion Rate zurück auf dem alten Niveau. oder schlechter.

Warum? Weil Sie nicht auf das Ende gewartet haben. Frühe Ergebnisse schwanken stark. Ein Test der nach 500 Besuchern „signifikant“ aussieht, kann nach 5.000 Besuchern völlig anders aussehen. Das ist keine Theorie. das ist mathematische Realität. Die Varianz ist bei kleinen Stichproben hoch. Erst wenn die Stichprobe groß genug ist, stabilisiert sich das Ergebnis um den wahren Effekt. Das ist der zentrale Grenzwertsatz. und er lässt sich nicht durch Ungeduld beschleunigen.

Die Regel: Ein Test läuft mindestens eine volle Geschäftszyklus-Woche, besser zwei. Und er läuft so lange, bis die errechnete Stichprobengröße (Sample Size) erreicht ist. Für einen typischen Shop mit 2% Conversion Rate und einem erwarteten +10% Uplift brauchen Sie ca. 8.000 Besucher pro Variante für ein 95%-Confidence-Level mit 80% Power. Das sind bei 10.000 Besuchern/Monat fast 2 Monate. Mehr zur statistischen Signifikanz beim A/B-Testing erfahren Sie im separaten Guide.

Wer vorher stoppt, spielt Lotto. kein A/B-Testing.

Segment-Analyse: Wo der wahre Schatz liegt

Ein Test der insgesamt +5% zeigt, kann auf Desktop +12% und auf Mobile -3% zeigen. Wenn Sie nur die Gesamtzahl betrachten, implementieren Sie eine Änderung die Ihre Mobile-Conversion killt. und Mobile ist heute oft 60-70% des Traffics.

Die wichtigsten Segmente für die Auswertung:

Device: Desktop und Mobile verhalten sich oft fundamental unterschiedlich. Eine größere CTA-Button-Fläche hilft auf Mobile, kann auf Desktop aber Platz wegnehmen.

Traffic-Quelle: Organische Besucher kaufen anders als Facebook-Ads-Traffic. Ein Test der bei Direct-Traffic funktioniert, kann bei Paid Social floppen.

Neukunden vs. Stammkunden: Stammkunden wissen wo der Checkout-Button ist. Neukunden brauchen Orientierung. Eine vereinfachte Navigation hilft Neukunden, kann Stammkunden aber frustrieren.

Preissegment: Ein Upsell-Test funktioniert bei Premium-Produkten besser als bei Discount-Artikeln.

Die Regel: Wenn ein Test insgesamt „inconclusive“ ist (kein klarer Gewinner), schauen Sie in die Segmente. Dort liegt oft der wahre Einblick. und manchmal der wahre Gewinner.

Praxisbeispiel: +12% Uplift. aber nur auf Mobile

Ein Schuh-Shop (ca. 120.000 Sessions/Monat, 1,8% Conversion Rate) testete eine vereinfachte Produktseite mit größeren Bildern und reduziertem Text. Nach 3 Wochen: +12% Uplift, P-Wert 0,02, 95%-CI: +4% bis +20%. Signifikant. Business-relevant. Implementieren?

Wir schauten in die Segmente. Desktop: +2% (nicht signifikant, CI: -3% bis +7%). Mobile: +23% (signifikant, CI: +12% bis +34%). Tablet: -5% (nicht signifikant, aber Trend negativ).

Die Entscheidung: Wir implementierten die Änderung nur für Mobile-Geräte. Der Shop gewann +23% auf seinem größten Traffic-Segment, ohne Desktop zu gefährden. Ohne Segment-Analyse hätten wir eine schwache Gesamtlösung deployed und das wahre Potenzial verschenkt.

Das ist der Unterschied zwischen „Testen“ und „Testen wie ein Profi“.

Das Wichtigste auf einen Blick

Kennzahl

Was sie bedeutet

Warnsignal

Conversion Rate

Käufer / Besucher in %

Nur vergleichen bei gleicher Traffic-Qualität

Relative Uplift

Prozentuale Verbesserung

Ohne Confidence Interval wertlos

P-Wert

Wahrscheinlichkeit, dass Ergebnis Zufall ist

> 0,05 = nicht signifikant, nicht implementieren

Confidence Interval

Bereich in dem wahrer Effekt liegt (95% sicher)

Enthaelt Null = nicht signifikant

Power (80%)

Wahrscheinlichkeit, einen echten Effekt zu finden

Sample Size zu klein = Power zu niedrig

Segment-Uplift

Uplift pro Gerät/Quelle/Kundengruppe

Gesamt positiv, Segmente negativ = gefährlich

FAQ

Wie lange sollte ein A/B-Test laufen?

Mindestens eine volle Woche, besser zwei, um Wochentag-Effekte auszugleichen. Und mindestens so lange, bis die errechnete Sample Size pro Variante erreicht ist. Für einen Shop mit 10.000 Sessions/Monat und 2% Conversion Rate können das 4-8 Wochen sein. Wer nach 3 Tagen stoppt, weil es „deutlich aussieht“, verschenkt Budget.

Was bedeutet p-Wert < 0,05?

Es bedeutet: Wenn es in Wahrheit keinen Unterschied gibt, würden wir dieses Ergebnis (oder ein extremeres) nur in 5% der Faelle sehen. Es ist KEINE Garantie, dass Variante B besser ist. Es ist nur ein Schutz gegen Fehlalarme. Ein P-Wert von 0,049 ist technisch signifikant, aber knapp. Ein P-Wert von 0,001 ist stark signifikant.

Kann ich einen Test früh stoppen wenn er deutlich gewinnt?

Nein. Das ist der „Peeking Problem“. der teuerste Fehler im A/B-Testing. Wenn Sie mehrmals auf die Ergebnisse schauen und bei „Signifikanz“ stoppen, erhöhen Sie die Fehlerwahrscheinlichkeit massiv. Ein Test der bei 95% Confidence geplant war, hat bei 5-maligem „Peeking“ eine tatsächliche Fehlerwahrscheinlichkeit von ca. 20%. Sie implementieren also 4× so oft falsche Gewinner.

Was ist ein Confidence Interval?

Das Confidence Interval gibt den Bereich an, in dem der wahre Effekt mit einer bestimmten Wahrscheinlichkeit (meist 95%) liegt. Ein +10% Uplift mit 95%-CI von +2% bis +18% bedeutet: Wir sind zu 95% sicher, dass der wahre Effekt irgendwo zwischen +2% und +18% liegt. Enthaelt das Interval die Null (z.B. -1% bis +11%), ist das Ergebnis nicht signifikant. es könnte auch null oder negativ sein.

Soll ich Tests auf Segment-Ebene auswerten?

Ja, immer. Ein Test der insgesamt +5% zeigt, kann auf Mobile +20% und auf Desktop -5% zeigen. Wenn Sie nur die Gesamtzahl betrachten, implementieren Sie eine Änderung die Ihren Desktop-Traffic schädigt. Die wichtigsten Segmente: Device (Desktop/Mobile/Tablet), Traffic-Quelle (Organic/Paid/Direct), und Kundentyp (Neu/Stamm). Aber Achtung: Je kleiner das Segment, desto breiter das Confidence Interval. Ein Segment mit 500 Besuchern hat keine aussagekräftige Statistik.

Was tun wenn der Test „inconclusive“ ist?

Ein „inconclusive“-Ergebnis (kein signifikanter Unterschied) ist kein Fehler. es ist eine Information. Es bedeutet: Die getestete Änderung hat keinen nachweisbaren Effekt. Das ist wertvoll. Sie vermeiden die Implementierung einer Änderung die nichts bringt. Nächster Schritt: Entweder eine radikalere Variante testen, oder ein anderes Element wählen. Nicht jeder Test muss einen Gewinner produzieren. Ein Test der verhindert, dass Sie eine nutzlose Änderung implementieren, spart Geld.

Wie groß muss die Sample Size sein?

Das hängt von drei Faktoren ab: Baseline Conversion Rate, erwarteter Uplift, und gewünschter Power (meist 80%). Ein Shop mit 2% Conversion Rate und erwartetem +10% Uplift braucht ca. 8.000 Besucher pro Variante. Bei 1% Conversion Rate und erwartetem +5% Uplift brauchen Sie 60.000 pro Variante. Tools wie Evan Miller’s Sample Size Calculator oder Optimizely’s Calculator helfen bei der Planung. Ohne Sample-Size-Planung starten Sie blind.

Was ist der Unterschied zwischen relativem und absolutem Uplift?

Relativer Uplift: Von 2,0% auf 2,2% Conversion Rate = +10% relativ. Absoluter Uplift: +0,2 Prozentpunkte. Der relative Uplift klingt beeindruckender, aber der absolute Uplift sagt Ihnen, wie viele zusätzliche Käufer Sie wirklich gewinnen. Bei 100.000 Besuchern/Monat sind +0,2 Prozentpunkte = 200 zusätzliche Käufer. Bei 50€ AOV sind das 10.000€ zusätzlicher Umsatz/Monat. Rechnen Sie immer beides aus. der absolute Uplift ist die Sprache des CFOs.

Jörg Dennis Krüger, CRO-Experte, Autor von 3 Büchern zum Thema Conversion-Optimierung, Speaker bei OMR und Internet World. Über 130 Millionen Euro zusätzlicher Shop-Umsatz durch A/B-Testing. Entwickler der thinkCONVERSION®-Methode.

Ab-testergebnisse richtig lesen bedeutet, statistische Signifikanz von Geschäftsrelevanz zu unterscheiden.

Zuletzt aktualisiert: Mai 2026

A/B-Testergebnisse richtig lesen:
Was die Zahlen wirklich bedeuten

A/B-Testergebnisse richtig lesen: Was die Zahlen wirklich bedeuten

Die drei Zahlen die jeder A/B-Test liefern muss

Statistische Signifikanz: Was 95% wirklich bedeuten

Der häufigste Fehler: Zu früh stoppen

Segment-Analyse: Wo der wahre Schatz liegt

Praxisbeispiel: +12% Uplift. aber nur auf Mobile

Das Wichtigste auf einen Blick

FAQ

Wie lange sollte ein A/B-Test laufen?

Was bedeutet p-Wert < 0,05?

Kann ich einen Test früh stoppen wenn er deutlich gewinnt?

Was ist ein Confidence Interval?

Soll ich Tests auf Segment-Ebene auswerten?

Was tun wenn der Test „inconclusive“ ist?

Wie groß muss die Sample Size sein?

Was ist der Unterschied zwischen relativem und absolutem Uplift?

Bereit für mehr Umsatz?

Ähnliche Artikel

A/B-Test-Optimierung für E-Commerce: Von der Hypothese zum signifikanten Gewinner

eCommerce Personalisierung: Was funktioniert — und was ist teures Schlangenöl

A/B-Tests für E-Commerce: Der systematische Weg zu mehr Umsatz

A/B-Testergebnisse richtig lesen:Was die Zahlen wirklich bedeuten

A/B-Testergebnisse richtig lesen: Was die Zahlen wirklich bedeuten

Die drei Zahlen die jeder A/B-Test liefern muss

Statistische Signifikanz: Was 95% wirklich bedeuten

Der häufigste Fehler: Zu früh stoppen

Segment-Analyse: Wo der wahre Schatz liegt

Praxisbeispiel: +12% Uplift. aber nur auf Mobile

Das Wichtigste auf einen Blick

FAQ

Wie lange sollte ein A/B-Test laufen?

Was bedeutet p-Wert < 0,05?

Kann ich einen Test früh stoppen wenn er deutlich gewinnt?

Was ist ein Confidence Interval?

Soll ich Tests auf Segment-Ebene auswerten?

Was tun wenn der Test „inconclusive“ ist?

Wie groß muss die Sample Size sein?

Was ist der Unterschied zwischen relativem und absolutem Uplift?

DAS KÖNNTE SIE AUCH INTERESSIEREN

Bereit für mehr Umsatz?

Ähnliche Artikel

A/B-Test-Optimierung für E-Commerce: Von der Hypothese zum signifikanten Gewinner

eCommerce Personalisierung: Was funktioniert — und was ist teures Schlangenöl

A/B-Tests für E-Commerce: Der systematische Weg zu mehr Umsatz

A/B-Testergebnisse richtig lesen:
Was die Zahlen wirklich bedeuten