Statistikken bag en splittest

Det er efterhånden blevet meget populært at udføre splittests, men desværre ser jeg alt for ofte at mange ikke har tålmodighed til at køre testen til ende og derfor ender med at træffe beslutninger på et for løst grundlag. Mange vælger at stoppe en test fordi man kan se at den ene variant er bedre end den anden og derfor vil man hurtigst muligt have implementeret “vinderen” for at undgå at bruge taberen længere tid end højst nødvendigt. Det kan også være meget fristende hvis man f.eks. kører en webshop og man kan se at der er mulighed for at hæve omsætningen. Det kan dog være meget farligt at gøre det for tidligt og man kan faktisk risikere at implementere det der i virkeligheden er taberen. Derfor vil jeg her gennemgå statistikken bag en splittest og forklare hvorfor det er vigtigt at have nogle signifikante resultater at konkludere udfra.

Stikprøve og population

Rigtig meget statistik drejer sig om at sige noget om hvordan en stor gruppe (populationen) opfører sig, ved at kigge på et lille udsnit af den store gruppe (stikprøven). Det kan f.eks. være meningsmålinger og exit polls ved et folketingsvalg eller en spørgeskema-undersøgelse i det lokale supermarked. Det er præcis det samme med en splittest – man kan umuligt køre testen på samtlige kunder der vil komme i butikken (så bliver man jo aldrig færdig), så derfor vælger man at køre testen på en større eller mindre stikprøve for at give et kvalificeret gæt på hvordan hele populationen vil opføre sig i forhold til de elementer man vil teste.

Man forudsætter derved at personerne i stikprøven samlet set skal repræsentere hvordan hele population tænker og opfører sig i en webshop. Da man netop ikke kan udsætte alle personer for testen, vil der altid være en chance for at lige netop de personer man har med i testen ikke er repræsentativ for populationen og derfor ikke giver et retvisende billede af hvordan populationen opfører sig. Jo større stikprøven bliver, jo større sandsynlighed er der for at stikprøven er repræsentativ for populationen. Hvis man f.eks. vælger at stoppe sin splittest efter 10.000 besøgende og 100 konverteringer, så skal man altså være opmærksom på at man derved lader præcis de 100 personer afgøre hvad samtlige af de efterfølgende brugere mener er rigtigt og forkert i butikken. Eksempelvis om en knap skal være grøn eller rød.

Hypotesetest

Den statistik som en splittest er opbygget omkring, hedder hypotesetest. Det går i al sin enkelthed ud på, at man opstiller nogle hypoteser og tester hvorvidt de kan be- eller afkræftes. Man opstiller en 0-hypotese (H0) som er udgangspunktet og en 1-hypotese (H1) som er alternativet. H0 vil normalt være det modsatte af det stikprøven viser, mens H1 vil følge stikprøven. Som udgangspunkt vil H0 være sandt, medmindre det modsatte kan bevises.

Det værktøjer som Visual Website Optimizer tester på, er om der er en forskel i den gennemsnitlige konverteringsrate (middelværdi) mellem kombinationerne. Det vil altså sige at medmindre stikprøven viser at der er signifikant forskel i middelværdierne så vil man konkludere at alle middelværdier er ens og alle kombinationer derfor har den samme gennemsnitlige konverteringsrate. Testen bliver derfor opstillet således:

H0 = Alle middelværdier er ens (Der er ikke forskel på kombinationernes konverteringsrate)
H1 = Mindst to middelværdier er forskellige fra hinanden (Mindst en af kombinationerne har en højere konverteringsrate end originalen)

Signifikansniveau

Nu har jeg et par gange brugt ordet signifikant, så det er vist på tide at vi lige slår fast hvad det egentlig dækker over. Hvis man f.eks. arbejder med et signifikansniveau på 95% (som VWO gør), så vil det sige at man kun vil have en sandsynlighed på 5% for at resultatet af stikprøven er en tilfældighed, som man altså ikke kan stole på. Hvis man kører testen indtil man har et signifikansniveau på 95%, så vil det altså sige at hvis man kørte testen 100 gange, så vil man få det samme resultat mindst 95 af gangene – og så er det sikkert nok til at man kan implementere det i virkeligheden (resultatet er signifikant).

Retssagen

Men hvorfor er det vigtigt at være så sikker? Til at illustrere det bruger man ofte en retssag som eksempel, så lad os bare bruge det igen:

En mistænkt er som udgangspunkt uskyldig indtil det modsatte er bevist. Derfor ser modellen således ud:

H0 = Mistænkte er uskyldig
H1 = Mistænkte er skyldig

Udfaldet af retssagen kan derfor opstilles således med to rigtige og to forkerte beslutninger:

Retssagens mulige udfald

Af de to forkerte beslutninger er justitsmordet klart det værste der kan ske. Det er langt værre at dømme en uskyldig mand, end at lade en skyldig gå fri. Det vil altså sige at man skal have meget stærke beviser for at forkaste H0, da det er katastrofalt hvis beslutningen er forkert.

I statistik arbejder man netop derfor ofte med et signifikansniveau på 95%, hvilket altså vil sige at man i 95% af tilfældene træffer den korrekte beslutning. Der er derved kun 5% risiko for at begå et justitsmord. Normalt vil man måske sige at hvis bare den ene beslutning er mere end 50% sandsynlig så vil man vælge den, men det er altså ikke nok, fordi det så katastrofalt at forkaste H0 og dermed dømme en uskyldig.

Hvad så med min splittest?

Hvis vi holder fast i den model (H0 og H1) vi opstillede i starten, så er det fuldstændigt det samme med en splitest. Udgangspunktet er at der ikke er nogen forskel på de forskellige kombinationer i testen. Det vil derfor være mere katastrofalt at udråbe en vinder hvis der ikke er en, end at lade være med at udråbe en vinder selvom der faktisk er en vinder. Et eksempel kan være at konkludere at en blå farve er bedst mens virkeligheden faktisk er at der ikke er nogen forskel eller at det er en helt anden farve der er bedst.

I den situation vil man ende med at implementere en farveændring som er helt forkert. Derfor vil det altid være bedre at konkludere at der ikke er nogen forskel indtil det modsatte er bevist. Så kan du i værste fald ende ud med ikke at ændre noget som helst, selvom en af kombinationerne faktisk havde været bedre. Men det er da bedre end at vælge en kombination som ender med at påvirke din konverteringsrate negativt. VWO bruger som sagt et signifikansniveau på 95% og kræver derfor en sandsynlighed på 95% for at den løsning man vælger også er den rigtige.

Brug det i din splittest

Nu er det vist på tide at den kedelige statistik skal erstattes af et praktisk eksempel. Vi tager derfor udgangspunkt i nedenstående rapport:

Hvis vi tager udgangspunkt i “Combination 2 – red”, så har den en konverteringsrate på 41,5%. Det er det præcise tal der er målt i testen. Som tidligere nævnt er det tal forbundet med noget usikkerhed. I dette eksempel mener værktøjet derfor at hvis man siger 41,5% +/- 11%, så vil den rigtige konverteringsrate ligge indenfor det område i 80% af tilfældene, men mere præcist kan man altså ikke komme det. Man skal altså være opmærksom på at den rigtige konverteringsrate lige så godt kan være 30,5% som den kan være 52,5% – statistisk set. Dette ses desuden visuelt i form af den bar til højre for tallet. Bredden på den bar angiver altså hvor meget usikkerhed der er forbundet med den målte konverteringsrate.

Hvis man på ovenstående billede sammenligner den kombination med “original” så kan man se at de overlapper hinanden en smule (det grå område). Det betyder altså at der er en sandsynlighed for at den rigtige konverteringsrate ligger i det område hvor de overlapper hinanden og vi kan derfor ikke forkaste vores H0 hypotese som siger at der ikke er nogen forskel på de to. På dette tidspunkt i testen er den eneste rigtige konklusion altså at der ikke er nogen forskel på de to kombinationer!

En vinder findes

Hvis vi derimod kigger på nedenstående billede fra en af mine tidligere tests, som har kørt i længere tid, og stikprøven er blevet større (og dermed sandsynligvis mere repræsentativ for populationen), ses det, at vi nu har en variant, som ikke overlapper med originalen, hvilket giver en sandsynlighed på 95% for, at der er forskel på de to. Det vil omvendt sige, at der nu kun er 5% sandsynlighed for, at de i virkeligheden har samme konverteringsrate. Derfor kan vi nu forkaste H0, acceptere vores H1-hypotese og konkludere, at “Combination 1 – KISS” har en konverteringsrate, der er signifikant højere end vores original = Vi har en vinder!

Konklusion

Splittesting er fortsat meget nyt i Danmark og man kan da også se på nogen af de testresultater der bliver offentliggjort at det stadig er i prøve-sig-frem-fasen og mange lige skal se hvad det kan bruges til – der er i hvert fald ikke mange signifikante resultater iblandt. Derfor vil jeg godt lige slutte af med at opfordre alle til at teste løs alt hvad I kan, men samtidig tænke over størrelsen på den stikprøve man har indsamlet data fra. Jeg har set tests som kun er kørt over 10-12 dage og det er altså ikke særlig repræsentativ data man kan nå at indsamle på så kort tid. Man kan sagtens nå at få flere tusinde besøgende igennem testen på 10 dage, men kan man være sikker på, at man på så kort tid, kan få et retvisende billede af hvordan ALLE ens fremtidige kunder vil opfatte ens website? Det kan godt være, men sandsynligheden er meget lille :)

10 kommentarer

Jacob Kildebogaard

11/12-2009 - 09:05

Vel talt. Det varmer mit cand.merc.(MAT) hjerte :)

Fordi det er blevet så let at lave test og tro at statistikken er på plads, så ser jeg flere og flere tærkrummende konklusioner hos "professionelle". "Testen havde version 1 som vinder med et signifikansniveau på under 70".

@Trovatten smed et link omkring test af signifikans. Og hvad ser man her? Signifikansniveau test med niveauer på 85, 90, 95 og 98%. Find tre fejl.

Som du skriver, så er 95% det absolut mest gængse niveau. 99% bruges også når man skal være endnu mere sikker på resultatet.

Så det er fantastisk at du griber tyren ved hornene og tager emnet op. Man må IKKE tro at 72% er godt nok, det er i al fald på ingen måde statistisk validt. Og det må jo være succeskriteriet.
Michael Kjeldsen

11/12-2009 - 10:22

Super god gennemgang af vigtigheden ved at lade eksperimenterne løbe til ende. Alle der arbejder professionelt med split-tests burde læse den igennem.

Desværre er den nok bare for teknisk til at videresende til købmænd uden statistisk/matematisk baggrund, der har ALT for travlt med at få implementeret ændringerne ;-)
Kurt Moskjær Andersen

11/12-2009 - 10:57

Rigtig god artikel, som giver stof til eftertanke.
Jacob Worsøe

13/12-2009 - 22:16

Jacob: Jeg vidste det lige var noget for en talnørd som dig :) Jeg bliver også selv cand.merc på et par år, så vi har nok en del tilfælles på det punkt.

Michael: Tak for rosen. Det er ærgeligt at du synes den er for teknisk. Jeg havde hele tiden som mål at gøre det nemt at forstå, selvom man måske ikke kender noget til statistik, men det er åbenbart ikke helt lykkedes. Det kan godt være det bare er umuligt med sådan et emne. Kan du give nogle eksempler på ting der var lidt svære at forstå?

Kurt: Tak for det, jeg er glad for at den satte nogle tanker igang.
Jacob Worsøe

13/12-2009 - 22:17

Jeg har forresten lige tilføjet artiklen til aNyhed igen. De havde et nedbrud som gjorde at artiklen var blevet slettet fra aNyhed, men nu er det altså igen muligt at give den en stemme :)
Rasmus Henriksen

04/02-2010 - 03:13

Hej, først og fremmest vil jeg sige at artiklen som helhed er rigtig god. Den starter endda super godt ud! Jeg føler dog jeg taber tråden undervejs, når vi begynder på "Estimated conversion rate change".

"Kombinationen af at begge varianter, med 80% sandsynlighed, har en konverteringsrate som ikke overlapper hinanden giver en sandsynlighed på 95% for at der er forskel på dem."
– Hvorfor det? Jeg kan ikke lige se den logiske forklaring på det, eller den matematiske begrundelse for det.

For mit vedkommende i hvert fald, er der gennemgående forvirring om hvordan og hvorledes og hvorfor mht. usikkerheden, overlapningen og de barre generelt.

Det vil glæde mig hvis du kan specificere det lidt nærmere måske? :) Keep up!
Jacob Worsøe

16/02-2010 - 14:22

Rasmus: Tak for din kommentar og jeg beklager det sene svar.

Jeg skal være ærlig og sige at jeg ikke har haft statistik på et højt nok niveau til at jeg kan forklare matematikken bag ved de udregningen, men bare forstå hvordan man bruger hypotese-test. Derfor har jeg været nødt til at lave mere eller mindre direkte oversættelser af enkelte dele. Det er taget herfra:

"The 80% confidence level is what determines the width of the range. It is what allows us to say, with 95% confidence, that a range that exceeds and does not overlap another range will outperform the other range."

Jeg er dog selv nysgerrig efter at finde ud af mere af den bagved liggende matematik, så jeg vil lige prøve at skrive en mail til Google og høre om de kan komme med en forklaring der er til at forstå :)
Rasmus Henriksen

10/11-2011 - 08:57

Hej Jacob

Kan se at jeg aldrig fik svaret, det troede jeg nu jeg havde.
Tak for dit svar! Og tak for det nye link! :)
Sune

03/06-2012 - 14:34

Rigtig godt forklaret, mange tak :)
Marcus

16/01-2021 - 14:58

Perfekt, tusind tak!