Statistikken bag en splittest

Sidst opdateret: 11. dec 2009

Det er efterhånden blevet meget populært at udføre splittests, men desværre ser jeg alt for ofte at mange ikke har tålmodighed til at køre testen til ende og derfor ender med at træffe beslutninger på et for løst grundlag. Mange vælger at stoppe en test fordi man kan se at den ene variant er bedre end den anden og derfor vil man hurtigst muligt have implementeret “vinderen” for at undgå at bruge taberen længere tid end højst nødvendigt. Det kan også være meget fristende hvis man f.eks. kører en webshop og man kan se at der er mulighed for at hæve omsætningen. Det kan dog være meget farligt at gøre det for tidligt og man kan faktisk risikere at implementere det der i virkeligheden er taberen. Derfor vil jeg her gennemgå statistikken bag en splittest og forklare hvorfor det er vigtigt at have nogle signifikante resultater at konkludere udfra.

Stikprøve og population

Rigtig meget statistik drejer sig om at sige noget om hvordan en stor gruppe (populationen) opfører sig, ved at kigge på et lille udsnit af den store gruppe (stikprøven). Det kan f.eks. være meningsmålinger og exit polls ved et folketingsvalg eller en spørgeskema-undersøgelse i det lokale supermarked. Det er præcis det samme med en splittest – man kan umuligt køre testen på samtlige kunder der vil komme i butikken (så bliver man jo aldrig færdig), så derfor vælger man at køre testen på en større eller mindre stikprøve for at give et kvalificeret gæt på hvordan hele populationen vil opføre sig i forhold til de elementer man vil teste.

Man forudsætter derved at personerne i stikprøven samlet set skal repræsentere hvordan hele population tænker og opfører sig i en webshop. Da man netop ikke kan udsætte alle personer for testen, vil der altid være en chance for at lige netop de personer man har med i testen ikke er repræsentativ for populationen og derfor ikke giver et retvisende billede af hvordan populationen opfører sig. Jo større stikprøven bliver, jo større sandsynlighed er der for at stikprøven er repræsentativ for populationen. Hvis man f.eks. vælger at stoppe sin splittest efter 10.000 besøgende og 100 konverteringer, så skal man altså være opmærksom på at man derved lader præcis de 100 personer afgøre hvad samtlige af de efterfølgende brugere mener er rigtigt og forkert i butikken. Eksempelvis om en knap skal være grøn eller rød.

Hypotesetest

Den statistik som en splittest er opbygget omkring, hedder hypotesetest. Det går i al sin enkelthed ud på, at man opstiller nogle hypoteser og tester hvorvidt de kan be- eller afkræftes. Man opstiller en 0-hypotese (H0) som er udgangspunktet og en 1-hypotese (H1) som er alternativet. H0 vil normalt være det modsatte af det stikprøven viser, mens H1 vil følge stikprøven. Som udgangspunkt vil H0 være sandt, medmindre det modsatte kan bevises.

Det værktøjer som Visual Website Optimizer tester på, er om der er en forskel i den gennemsnitlige konverteringsrate (middelværdi) mellem kombinationerne. Det vil altså sige at medmindre stikprøven viser at der er signifikant forskel i middelværdierne så vil man konkludere at alle middelværdier er ens og alle kombinationer derfor har den samme gennemsnitlige konverteringsrate. Testen bliver derfor opstillet således:

  • H0 = Alle middelværdier er ens (Der er ikke forskel på kombinationernes konverteringsrate)
  • H1 = Mindst to middelværdier er forskellige fra hinanden (Mindst en af kombinationerne har en højere konverteringsrate end originalen)

Signifikansniveau

Nu har jeg et par gange brugt ordet signifikant, så det er vist på tide at vi lige slår fast hvad det egentlig dækker over. Hvis man f.eks. arbejder med et signifikansniveau på 95% (som VWO gør), så vil det sige at man kun vil have en sandsynlighed på 5% for at resultatet af stikprøven er en tilfældighed, som man altså ikke kan stole på. Hvis man kører testen indtil man har et signifikansniveau på 95%, så vil det altså sige at hvis man kørte testen 100 gange, så vil man få det samme resultat mindst 95 af gangene – og så er det sikkert nok til at man kan implementere det i virkeligheden (resultatet er signifikant).

Retssagen

Men hvorfor er det vigtigt at være så sikker? Til at illustrere det bruger man ofte en retssag som eksempel, så lad os bare bruge det igen:

En mistænkt er som udgangspunkt uskyldig indtil det modsatte er bevist. Derfor ser modellen således ud:

  • H0 = Mistænkte er uskyldig
  • H1 = Mistænkte er skyldig

Udfaldet af retssagen kan derfor opstilles således med to rigtige og to forkerte beslutninger:

Retssagens mulige udfald

Retssagens mulige udfald

Af de to forkerte beslutninger er justitsmordet klart det værste der kan ske. Det er langt værre at dømme en uskyldig mand, end at lade en skyldig gå fri. Det vil altså sige at man skal have meget stærke beviser for at forkaste H0, da det er katastrofalt hvis beslutningen er forkert.

I statistik arbejder man netop derfor ofte med et signifikansniveau på 95%, hvilket altså vil sige at man i 95% af tilfældene træffer den korrekte beslutning. Der er derved kun 5% risiko for at begå et justitsmord. Normalt vil man måske sige at hvis bare den ene beslutning er mere end 50% sandsynlig så vil man vælge den, men det er altså ikke nok, fordi det så katastrofalt at forkaste H0 og dermed dømme en uskyldig.

Hvad så med min splittest?

Hvis vi holder fast i den model (H0 og H1) vi opstillede i starten, så er det fuldstændigt det samme med en splitest. Udgangspunktet er at der ikke er nogen forskel på de forskellige kombinationer i testen. Det vil derfor være mere katastrofalt at udråbe en vinder hvis der ikke er en, end at lade være med at udråbe en vinder selvom der faktisk er en vinder. Et eksempel kan være at konkludere at en blå farve er bedst mens virkeligheden faktisk er at der ikke er nogen forskel eller at det er en helt anden farve der er bedst.

I den situation vil man ende med at implementere en farveændring som er helt forkert. Derfor vil det altid være bedre at konkludere at der ikke er nogen forskel indtil det modsatte er bevist. Så kan du i værste fald ende ud med ikke at ændre noget som helst, selvom en af kombinationerne faktisk havde været bedre. Men det er da bedre end at vælge en kombination som ender med at påvirke din konverteringsrate negativt. VWO bruger som sagt et signifikansniveau på 95% og kræver derfor en sandsynlighed på 95% for at den løsning man vælger også er den rigtige.

Brug det i din splittest

Nu er det vist på tide at den kedelige statistik skal erstattes af et praktisk eksempel. Vi tager derfor udgangspunkt i nedenstående rapport:

Hvis vi tager udgangspunkt i “Combination 2 – red”, så har den en konverteringsrate på 41,5%. Det er det præcise tal der er målt i testen. Som tidligere nævnt er det tal forbundet med noget usikkerhed. I dette eksempel mener værktøjet derfor at hvis man siger 41,5% +/- 11%, så vil den rigtige konverteringsrate ligge indenfor det område i 80% af tilfældene, men mere præcist kan man altså ikke komme det. Man skal altså være opmærksom på at den rigtige konverteringsrate lige så godt kan være 30,5% som den kan være 52,5% – statistisk set. Dette ses desuden visuelt i form af den bar til højre for tallet. Bredden på den bar angiver altså hvor meget usikkerhed der er forbundet med den målte konverteringsrate.

Hvis man på ovenstående billede sammenligner den kombination med “original” så kan man se at de overlapper hinanden en smule (det grå område). Det betyder altså at der er en sandsynlighed for at den rigtige konverteringsrate ligger i det område hvor de overlapper hinanden og vi kan derfor ikke forkaste vores H0 hypotese som siger at der ikke er nogen forskel på de to. På dette tidspunkt i testen er den eneste rigtige konklusion altså at der ikke er nogen forskel på de to kombinationer!

En vinder findes

Hvis vi derimod kigger på nedenstående billede fra en af mine tidligere tests, som har kørt i længere tid, og stikprøven er blevet større (og dermed sandsynligvis mere repræsentativ for populationen), ses det, at vi nu har en variant, som ikke overlapper med originalen, hvilket giver en sandsynlighed på 95% for, at der er forskel på de to. Det vil omvendt sige, at der nu kun er 5% sandsynlighed for, at de i virkeligheden har samme konverteringsrate. Derfor kan vi nu forkaste H0, acceptere vores H1-hypotese og konkludere, at “Combination 1 – KISS” har en konverteringsrate, der er signifikant højere end vores original = Vi har en vinder!

 Konklusion

Splittesting er fortsat meget nyt i Danmark og man kan da også se på nogen af de testresultater der bliver offentliggjort at det stadig er i prøve-sig-frem-fasen og mange lige skal se hvad det kan bruges til – der er i hvert fald ikke mange signifikante resultater iblandt. Derfor vil jeg godt lige slutte af med at opfordre alle til at teste løs alt hvad I kan, men samtidig tænke over størrelsen på den stikprøve man har indsamlet data fra. Jeg har set tests som kun er kørt over 10-12 dage og det er altså ikke særlig repræsentativ data man kan nå at indsamle på så kort tid. Man kan sagtens nå at få flere tusinde besøgende igennem testen på 10 dage, men kan man være sikker på, at man på så kort tid, kan få et retvisende billede af hvordan ALLE ens fremtidige kunder vil opfatte ens website? Det kan godt være, men sandsynligheden er meget lille :)