HemInsights
5 vanliga fallgropar i A/B-testning

5 vanliga fallgropar i A/B-testning

Anton Nordström
Jun 2024
Anton Nordström
En man som gör ett A/B expriment

En guide för marknadsförare

Att gå på magkänsla kommer man bara så långt med. När verkligheten blir komplicerad, när variabler staplas på hög och inte erfarenheten räcker till - ja då måste vi lita på den vetenskapliga metoden.

Eller, i alla fall så mycket av den som är applicerbar för oss marknadsförare. Den kommer ofta i en form vi alla hört förut: “A/B-testet”.

Beväpnad med A/B-testet kan vi kämpa mot godtycklighet i beslutsfattande och ständigt förbättra vårt eget arbete.

Problemet uppkommer om du, som jag, inte är dataanalytiker (eller inte hade matematik som favoritämne i skolan). För det är lätt hänt att man litar på systemet man jobbar i eller ett verktyg man hittat - utan att förstå vad man gör och varför.

Om det då blir fel så är det ännu värre än om du inte testat alls, för nu verkar det som du har tillförlitlig data. Men du visste egentligen mer innan du började testa. Då visste du med 100% säkerhet… vad du inte visste om.

Låt mig berätta om 5 vanliga fallgropar vid A/B-testning. Så du kan undvika att trilla ned i dem.

Fallgrop 1: Sample Size och Timing i A/B Testing

Att jag läst två kursers statistik för några år sedan betyder inte att jag kommer ihåg (eller ännu mindre, förstår) statistiska metoder.

Ett vanligt misstag jag själv gjort mig skyldig till är detta. Att inte förstå vad ett A/B-test är och på grund av det, avsluta experimentet för tidigt.

“+10% står det i grönt, vad bra. Då är vi klara”

Eller

 “Va?! Måste vi vänta 2 MÅNADER? Räcker det inte med två veckor?”

Nej, det är du inte! 

Nej, det gör det inte!

Vad vi gör kallas ‘hypotesprövning’ (hypothesis testing) och idén är denna: att attribuera en eventuell förändring till experimentet och inte ren och skär slump.

För att göra det behöver vi ett tillräckligt stort urval ur en population - ett stickprov (sample).

Storleken av den avgörs av tre faktorer.

  1. Signifikansnivå (significance level): hur troligt det är att vi får ett falskt positiv. Standard är att sätta 0.05 eller 5%.
  2. Power: hur troligt det är att vi identifierar effekten om den verkligen existerar.
  3. Minsta observerbara skillnad (minimum effect, MDE): den minsta effekten mellan experimentgruppen och kontrollgruppen vi vill kunna mäta. 

Och relationen mellan dem och storleken på urvalet är.

Signifikansnivån minskar → Större stickprovstorlek

Power ökar → Större stickprovstorlek

MDE minskar → Större stickprovstorlek

Summa summarum, ju säkrare vi vill vara på resultatet och ju mindre skillnader vi vill se, desto större behöver stickprovet vara.

Men hur hänger det här då ihop med att avsluta A/B-test för tidigt? 

Om vi gör beräkningarna och kommer fram till att det behövs ett urval på totalt 10 000 personer, 5 000 var i kontroll- och experimentgruppen, då kan vi bara vara “säkra” på resultatet när vi nått det här antalet. 

Till exempel, om jag har en ny onboardingresa jag vill testa mot den gamla behöver då 5 000 personer gått igenom den nya och även den gamla innan jag med säkerhet kan kolla på siffrorna och säga vad som presterar bäst.

Ett bra tips för att hitta rätt storlek på ditt stickprov är att använda ett lättanvänt verktyg. Jag gillar personligen Optimizelys “Sample Size Calculator”

Fallgrop 2: Randomisering (randomization) och dess utmaningar

När jag först bekantade mig med A/B-testning, antog jag lite naivt att det skulle vara enkelt att bara dela upp användare slumpmässigt i olika grupper. Men i själva verket kan det vara krångligare.

För att ge en bild av detta, föreställ dig att vi delar upp deltagarna i en matlagningskurs i två grupper. Vi vill jämföra olika undervisningsmetoder. Om slumpen placerar alla eller en majoritet av erfarna kockar i en grupp och nybörjare i en annan, hur kan vi då skilja på om det är undervisningsmetoden eller deltagarnas tidigare kunskaper som ger resultat?

I en marknadsföringskontext är detta ännu viktigare. Tänk dig att du har en grupp på 100 användare och att 5 av dessa står för 30% av all trafik på din webbplats. Om dessa 'storförbrukare' av en slump hamnar i samma testgrupp, kommer det att snedvrida resultaten rejält. 

Om du är en data scientist så kanske du känner att det inte är för komplext men för marknadsföraren kan det vara ett oväntat problem. Ett problem som vi inte alltid har lösningen till.

Därför är min rekommendation att om testet är viktigt och ni har bra data, ja gör då urvalet tillsammans med ert analysteam. Att lita på urvalet från ett eller annat CRM/MA-system räcker inte alltid. Så se till att rådfråga experterna.

En annan relaterad svårighet är att se till att användare stannar i samma grupp (experiment eller kontroll) och inte hoppar mellan. 

Till exempel: Du har satt upp ett test där ni testar engagemanget över en serie av 3 pop-ups på er hemsida. Experiment- och kontrollgruppen skiljer sig åt i timing av dessa meddelanden. Om det tar mer än en session att se alla dessa pop-up så är det viktigt att användarna inte slumpmässigt tilldelas experimentet eller kontrollen vid sin nästa session. De behöver vara kvar i samma grupp tills testet är slutfört. Annars riskerar det att undergräva resultatet.

För många verktyg är det inte ett problem. Men anta inte heller att alla MA/CRM-system klarar av att inte mixa grupperna vid större test. Läs på!

Fallgrop 3: Minimera Variabler i A/B-Testning

När vi utför A/B-testning är det viktigt att vi minimerar påverkan av andra variabler så mycket som möjligt. En sån som lätt smyger under radarn är laddningstid.

Låt oss ta ännu ett pop-up exempel. Föreställ dig att du vill testa effekten av att använda en video istället för en stillbild i en viktig pop-up för ditt företag. Du har hört att webm är det nya heta formatet som erbjuder bra bild i en mindre fil. 

Det är viktigt att komma ihåg att videon ändå (oavsett hur effektiv) kommer att ha en längre laddningstid jämfört med en vanlig bild. Detta introducerar en ny variabel - laddningstiden - som egentligen inte är direkt relaterad till innehållet i videon eller skillnaden mellan rörlig och statisk innehåll.

Om målet med testet är att jämföra effektiviteten av video mot stillbild, utan att laddningstiden ska påverka, bör du överväga att introducera en motsvarande fördröjning för kontrollgruppen (den med bilden). Detta gör att du kan jämföra resultaten mer rättvist och se om det är innehållet i videon, snarare än dess laddningstid, som påverkar användarnas beteende.

Men det är ovanligt att man kan ta höjd för alla variabler (eller rent ut sagt, nästan omöjligt). I verkligheten så är möjligheten för kliniskt kontrollerade labbexperiment rätt så begränsad. 

Vi kan komma runt det genom att upprepa experimentet flera gånger och se om resultatet grovt håller i sig. En tydlig trend. Ja, då kan vi sätta en större tilltro till resultatet. 

I slutändan handlar det om att spana efter och ta höjd för variabler som kan snedvrida resultatet. Bara så kan du se till att dina A/B-tester går att lita på.

Fallgrop 4: Att behandla alla segment lika

‘Medelvärde’ är ett ord att smaka på. Det existerar i en delikat grupp ord och idéer som döljer och mystifierar mer än vad de beskriver.

Medellivslängden i Sverige är 85 år (kvinnor) och 81 år (män) och ökar långsamt1. Men den rikaste tiondelen lever nio år längre än den fattigaste tiondelen.2.

“Medel” är inte hela svaret.

Därför ska vi akta oss för den fällan när vi testar. Vi kan lätt tänka oss att ett experiment har stor positiv effekt på nya men en negativ påverkan på majoriteten av mogna användare. Att då bara kolla på hela populationen döljer alla skillnader bakom ett stort nummer som inte säger någonting om någon.

Därför är det viktigt att vara tydlig i designen av ditt test. Vad är vår hypotes? Är vi intresserade av att se en effekt på hela populationen - hela vår kund/användarbas eller delar av dessa?

Vi kör ett exempel till. 

Anta att du genomför ett A/B-test för att öka engagemanget bland användare i din podcast-app. Du testar att mer aggressivt informera om nya podcasts och avsnitt. Det är också så att kundbasen kan delas in i två användargrupper: frekventa lyssnare och de som lyssnar mer sporadiskt.

Om vi nu bara tittar på medelvärdena över hela användarbasen efter testet, får vi inte hela historien. Säg att medelvärdet visar en liten ökning i lyssningstid. Det låter bra men det döljer nyanserna i hur olika grupper faktiskt reagerade på förändringen.

För de frekventa lyssnarna kanske ökningen är markant – de uppskattar kanske det nya innehållet och lyssnar ännu mer. Men för de sporadiska lyssnarna kanske det inte gör någon skillnad, eller värre, kanske de lyssnar mindre. Medelvärdet säger oss ingenting om detta.

Det är som att säga "medeltemperaturen för patienter är normal" utan att märka att vissa av dem har feber medan andra fryser ihjäl.

Därför är det så viktigt att bryta ner data och titta på segmentnivå. Eller skapa testet med en tydlig målgrupp i åtanke. Det hjälper oss att se vilka strategier som fungerar för vilka användare. 

👉 Bonustips: Braze har en bra funktion som heter ‘personalized variant’ där ett första utskick används för att efter olika attribut hos kunderna matcha dem med vilken version av ett utskick som troligen kommer fungera bäst för dem. Check it out!

Fallgrop 5: Vikten av dokumentation i A/B-testning

Utan att dokumentera vad ni planerar, vad ni gjort och era resultat är det svårt att lyckas. Nej, låt mig säga att det nästan är övermänskligt. 

Om du som jag, inte har ett magiskt minne behövs det framförallt en sak - dokumentation.

Lättare sagt än gjort för problemet är att dokumentet behöver underhållas. Det behöver också integreras inom arbetssättet. 

För att det ska undvika att bli ännu ett fint initiativ som rann ut i sanden så måste ni bestämma att ni, inom ramen för hur ni redan arbetar, tar fram och diskuterar resultaten. Jag pratar inte om en gång i kvartalet utan en gång i månaden eller kanske varannan vecka.

På ett av mina uppdrag gick vi igenom det i början av varje ny månad tillsammans med alla kampanjer för månaden innan. Det var först då det lossnade och det gick från aspiration till verklighet.

Sammanfattning.

Sammanfattningsvis har vi granskat fem vanliga fallgropar i A/B-testning och hur man kan undvika dem. Från vikten av att förstå sample size och timing, till utmaningarna med randomisering, minimering av variabler, behandling av olika segment, och slutligen, vikten av grundlig dokumentation.

Som marknadsförare ger det en bra grund för att med självförtroende konfrontera testning. Jag hoppas också det kommer göra samarbetet med eventuella analysfunktioner lättare.

Ha det bra!

Copy UTM
Copied!
Powered by
Want to use this UTM widget? Copy the code and install it on your site 😊
Copied!
Copy code
Thank you! Your submission has been received!
Oops! Something went wrong while submitting the form.
Här kan du skapa din UTM tag:
Fyll i fälten och låt oss skapa en UTM-tagg för dig
Thank you! Your submission has been received!
Oops! Something went wrong while submitting the form.