Vilseledande A/B-tester är enkelt

av Rostyslav Mykhajliw Grundare av TrueSocialMetrics.com ~ 4 min

Klassisk

Det klassiska A/B-testet är en fördelning mellan olika stater. Låt oss utgå från ett allmänt exempel som alla använder. Vi har en sida med en registreringsknapp, för närvarande är den blå, men vi vill testa en ny färg röd.

A/B testing

Sedan fördelar vi lite trafik dit och väntar på lite. Det finns en enkel miniräknare för statistical significance.

Alternativ A: 50 000 besök - 500 registreringar Alternativ B: 50 000 besökare - 570 registreringar - vinnare

B är en vinnare det är klart. Fler anmälningar, statistisk signifikans.

Ett nytt klassiskt äpple till apelsiner

Vänta lite! Vad vi släpper något nytt. Till exempel lägger vi till en knapp "demo" för översikt över en steg-för-steg-guide genom produkten. A/B testing a new feature

Om vi följer en enkel logik av A/B-tester - det fungerar inte! För vi kan inte jämföra äpplen med apelsiner. Vi kan inte jämföra ingenting med något! Det är helt felaktigt. Om det inte finns någon demoknapp, så kan användare få en sämre upplevelse än de som har det här alternativet. Men det här alternativet kan bara hjälpa användare som redan är intresserade av produkten eller som redan sagt att de nyligen ska använda produkten. Även om du har miljontals trafik kan du inte säga hur det fungerar på några timmar/dagar eftersom resultaten kan skjutas upp i tid.

För en ny funktionalitet bör släppas linjär som enteral releaseprocess. Först då efter ett tag kan vi titta på det och ta reda på om det hade någon inverkan på kundupplevelsen eller inte, men spåra affärsmått. A/B-tester är INTE tillämpliga för en ny funktionalitet.

AA/BB testar förtroendet

Gå tillbaka till det första provet med registreringsknappen. Om vår gissning är korrekt kan vi lägga till fler A-alternativ och fler B-alternativ och ingenting ändras, eftersom B fortfarande kan vinna striden.

AA/BB testing

Titta sedan på resultaten:

A1: 50 000 besökare - 500 anmälningar A2: 50 000 besökare - 580 registreringar - vinnare B1: 50 000 besökare - 570 anmälningar - vinnare B2: 50 000 besökare - 500 registreringar

VAD! VAD! VAD! Du kan säga att det är omöjligt men den här situationen visar skillnad om tilldelningen av besökare träder i kraft på testresultaten. Och dessa resultat visar stabil 95 % statistisk signifikans men lågt konfidens.

Adaptiv testning

Om vi går tillbaka till början av artikeln kommer vi att märka en enorm trafik på 50 000 besökare och 500 övergångar som krävs för att få ett meningsfullt resultat. Men inte alla sidor har dessa möjligheter. Alla startups är inte tillräckligt bra för att generera sådan trafik, eller så kan det vara sidor med låg trafik som inställningar/fakturor etc. I alla dessa fall kommer klassiska a/b-tester att ta enormt lång tid att samla in data månader/halvår eller så. Nästa nackdel med det allmänna tillvägagångssättet är att minst 50 000 besökare (från 100 000 tilldelade för att testa) fick sämre kundupplevelse. Så vi väntar länge och tappar kunder på grund av allokering till ett "förlorande" test. Är det någon mening? Inom vården korsade läkare fallfrågorna, men i en tabell var människors liv. Om vi gör ett test under häxan dör 50% tålamod på grund av "inte-testat-ännu-vård". Och det är jävla galet. Här är en kille Marvin Zelen som kom på idén om adaptiv testning, nu kallad Zelen’s design.

Kort sagt

Låt oss föreställa oss att vi har två möjligheter: röda och blå bollar, så statistiskt är det 50% sannolikhet.

Adaptive test initial state

Till exempel fördelar vi besökare slumpmässigt till "blå" och "blå" är en bättre upplevelse eftersom vi fick ett köp. I det här fallet vinner "blå", det är därför vi lägger till en extra "blå" boll i poolen.

Adaptive test added blue ball

Som ett resultat ändrades sannolikheten "röd" - 33% och "blå" - 67%

Låter bra! Men nästa besökare med "blått" gör ingenting. Så "blå" tappar, det är därför vi måste ta bort en "blå" boll från poolen och vi fick vårt tidigare tillstånd.

Adaptive test final state

Plus: + fungerar för små mängder trafik + ger användarna bättre vård på ett adaptivt sätt Minus: - kräver att utvecklare arbetar för att ta reda på vinnande/förlorade tester under testprocessen

Hjärnskakning

  • Klassisk A/B-testning fungerar inte för nya funktioner eftersom du inte kan testa något med något
  • Vanligtvis är A/B-tester INTE representativa även om dina analyser säger att de är det
  • AA/BB-metoden hjälper till att kontrollera A/B-testresultat – Adaptiv testning är väldigt användbar för liten trafik men kräver handarbete för att räkna ut mål


När du är redo att rocka din sociala medieanalys

prova TrueSocialMetrics!


Starta testperiod
Inget kreditkort krävs.






Fortsätt läsa




Varför det är en dålig idé att mäta antalet följare
Varför anser alla antalet följare som ett värdefullt mått och varför det verkligen inte är användbart för ditt företag. Jag försöker slå sönder myterna om följare.


Lie to Me: Bad Metrics for Social Media
Det bästa sättet att skruva upp dina sociala medier-analyser är att välja dåliga mätvärden eller använda dem felaktigt. Här är de bästa sätten att göra det.


30-dagars värda råd för att förbättra din närvaro på sociala medier
Om du letar efter sätt att öka din statistik på sociala medier är det bästa sättet att göra det att fortsätta experimentera och prova nya saker. Jag har samlat 30 små och enkla experiment och tillväxthack som du kan testa den här månaden för att se vad som fungerar för dig. De är alla billiga och enkla att implementera, men även de minsta justeringarna kan leda till stora förbättringar.


Analysera sociala mediejättarna: Top Five Airlines digitala engagemang
Upptäck vilka flygbolag som leder i kontakt med sin publik och hur de använder digitala kanaler för att förbättra kundrelationer och varumärkessynlighet. Få insikter om styrkorna, svagheterna och viktiga takeaways för Delta, Emirates, American, United och Southwest för att bättre förstå det konkurrensutsatta landskapet för flygbolags marknadsföring på sociala medier.