Vilseledande A/B-tester är enkelt

av Rostyslav Mykhajliw Grundare av TrueSocialMetrics.com ~ 4 min

Klassisk

Det klassiska A/B-testet är en fördelning mellan olika stater. Låt oss utgå från ett allmänt exempel som alla använder. Vi har en sida med en registreringsknapp, för närvarande är den blå, men vi vill testa en ny färg röd.

A/B testing

Sedan fördelar vi lite trafik dit och väntar på lite. Det finns en enkel miniräknare för statistical significance.

Alternativ A: 50 000 besök - 500 registreringar Alternativ B: 50 000 besökare - 570 registreringar - vinnare

B är en vinnare det är klart. Fler anmälningar, statistisk signifikans.

Ett nytt klassiskt äpple till apelsiner

Vänta lite! Vad vi släpper något nytt. Till exempel lägger vi till en knapp "demo" för översikt över en steg-för-steg-guide genom produkten. A/B testing a new feature

Om vi följer en enkel logik av A/B-tester - det fungerar inte! För vi kan inte jämföra äpplen med apelsiner. Vi kan inte jämföra ingenting med något! Det är helt felaktigt. Om det inte finns någon demoknapp, så kan användare få en sämre upplevelse än de som har det här alternativet. Men det här alternativet kan bara hjälpa användare som redan är intresserade av produkten eller som redan sagt att de nyligen ska använda produkten. Även om du har miljontals trafik kan du inte säga hur det fungerar på några timmar/dagar eftersom resultaten kan skjutas upp i tid.

För en ny funktionalitet bör släppas linjär som enteral releaseprocess. Först då efter ett tag kan vi titta på det och ta reda på om det hade någon inverkan på kundupplevelsen eller inte, men spåra affärsmått. A/B-tester är INTE tillämpliga för en ny funktionalitet.

AA/BB testar förtroendet

Gå tillbaka till det första provet med registreringsknappen. Om vår gissning är korrekt kan vi lägga till fler A-alternativ och fler B-alternativ och ingenting ändras, eftersom B fortfarande kan vinna striden.

AA/BB testing

Titta sedan på resultaten:

A1: 50 000 besökare - 500 anmälningar A2: 50 000 besökare - 580 registreringar - vinnare B1: 50 000 besökare - 570 anmälningar - vinnare B2: 50 000 besökare - 500 registreringar

VAD! VAD! VAD! Du kan säga att det är omöjligt men den här situationen visar skillnad om tilldelningen av besökare träder i kraft på testresultaten. Och dessa resultat visar stabil 95 % statistisk signifikans men lågt konfidens.

Adaptiv testning

Om vi går tillbaka till början av artikeln kommer vi att märka en enorm trafik på 50 000 besökare och 500 övergångar som krävs för att få ett meningsfullt resultat. Men inte alla sidor har dessa möjligheter. Alla startups är inte tillräckligt bra för att generera sådan trafik, eller så kan det vara sidor med låg trafik som inställningar/fakturor etc. I alla dessa fall kommer klassiska a/b-tester att ta enormt lång tid att samla in data månader/halvår eller så. Nästa nackdel med det allmänna tillvägagångssättet är att minst 50 000 besökare (från 100 000 tilldelade för att testa) fick sämre kundupplevelse. Så vi väntar länge och tappar kunder på grund av allokering till ett "förlorande" test. Är det någon mening? Inom vården korsade läkare fallfrågorna, men i en tabell var människors liv. Om vi gör ett test under häxan dör 50% tålamod på grund av "inte-testat-ännu-vård". Och det är jävla galet. Här är en kille Marvin Zelen som kom på idén om adaptiv testning, nu kallad Zelen’s design.

Kort sagt

Låt oss föreställa oss att vi har två möjligheter: röda och blå bollar, så statistiskt är det 50% sannolikhet.

Adaptive test initial state

Till exempel fördelar vi besökare slumpmässigt till "blå" och "blå" är en bättre upplevelse eftersom vi fick ett köp. I det här fallet vinner "blå", det är därför vi lägger till en extra "blå" boll i poolen.

Adaptive test added blue ball

Som ett resultat ändrades sannolikheten "röd" - 33% och "blå" - 67%

Låter bra! Men nästa besökare med "blått" gör ingenting. Så "blå" tappar, det är därför vi måste ta bort en "blå" boll från poolen och vi fick vårt tidigare tillstånd.

Adaptive test final state

Plus: + fungerar för små mängder trafik + ger användarna bättre vård på ett adaptivt sätt Minus: - kräver att utvecklare arbetar för att ta reda på vinnande/förlorade tester under testprocessen

Hjärnskakning

  • Klassisk A/B-testning fungerar inte för nya funktioner eftersom du inte kan testa något med något
  • Vanligtvis är A/B-tester INTE representativa även om dina analyser säger att de är det
  • AA/BB-metoden hjälper till att kontrollera A/B-testresultat – Adaptiv testning är väldigt användbar för liten trafik men kräver handarbete för att räkna ut mål


När du är redo att rocka din sociala medieanalys

prova TrueSocialMetrics!


Starta testperiod
Inget kreditkort krävs.






Fortsätt läsa




Google Analytics protokoll för spårning och mätning av flera enheter
Nuförtiden står marknadsföring och analys inför en ny utmaning efter PC-eran. Det är spårning av flera enheter. Kunder använder smartphones, bärbara datorer, hemdatorer och vår analysmjukvara räknar dem som olika användarsessioner.


Lyxvarumärken på Facebook: Analysera bästa och sämsta innehåll, eller varför Prada-fans hatar kostymer
Har du någonsin undrat hur det går för lyxmärken i sociala medier? I den här artikeln kommer vi att avslöja vilken sofistikerad innehållstaktik som marknadsförare av lyxvaror använder för att engagera sina fans och hur de konkurrerar med varandra. Och varför Prada-fans hatar kostymer. Vi kommer att analysera Facebook-kontona för de 6 främsta lyxmärkena, Burberry, Chanel, Louis Vuitton, Gucci, Prada, Hermes.


DoubleTree Hotels på Facebook: Benchmarking från andra varumärken
En enorm orättvis fördel med stora varumärken med regionala filialer och systervarumärken är möjligheten att skapa sin egen interna standard för att jämföra med och jämföra effektiv innehållstaktik från andra varumärken. Låt oss studera fallet med några kända hotellkedjors närvaro på Facebook, som DoubleTree Hotel by Hilton i Europa.


Tre saker som alla borde lära sig om Analytics
Din webbplats, sida på sociala medier eller ditt varumärke är som ett mörkt rum – du har ingen aning om vad som händer inuti, hur kunder interagerar med din produkt, vad de tycker om ditt innehåll och så vidare. Det vill säga tills du slår på ficklampan för analys. Plötsligt kan du se att kunderna hatade dina inlägg om superbowl och dina inspirerande ordspråk men helt älskade dina fåniga videor om katter; att de hade problem med att prenumerera på ditt nyhetsbrev på en webbplats och inte har någon aning om hur man navigerar på prissidan.