Vilseledande A/B-tester är enkelt

av Rostyslav Mykhajliw Grundare av TrueSocialMetrics.com ~ 4 min

Klassisk

Det klassiska A/B-testet är en fördelning mellan olika stater. Låt oss utgå från ett allmänt exempel som alla använder. Vi har en sida med en registreringsknapp, för närvarande är den blå, men vi vill testa en ny färg röd.

Sedan fördelar vi lite trafik dit och väntar på lite. Det finns en enkel miniräknare för statistical significance.

Alternativ A: 50 000 besök - 500 registreringar Alternativ B: 50 000 besökare - 570 registreringar - vinnare

B är en vinnare det är klart. Fler anmälningar, statistisk signifikans.

Ett nytt klassiskt äpple till apelsiner

Vänta lite! Vad vi släpper något nytt. Till exempel lägger vi till en knapp "demo" för översikt över en steg-för-steg-guide genom produkten.

Om vi följer en enkel logik av A/B-tester - det fungerar inte! För vi kan inte jämföra äpplen med apelsiner. Vi kan inte jämföra ingenting med något! Det är helt felaktigt. Om det inte finns någon demoknapp, så kan användare få en sämre upplevelse än de som har det här alternativet. Men det här alternativet kan bara hjälpa användare som redan är intresserade av produkten eller som redan sagt att de nyligen ska använda produkten. Även om du har miljontals trafik kan du inte säga hur det fungerar på några timmar/dagar eftersom resultaten kan skjutas upp i tid.

För en ny funktionalitet bör släppas linjär som enteral releaseprocess. Först då efter ett tag kan vi titta på det och ta reda på om det hade någon inverkan på kundupplevelsen eller inte, men spåra affärsmått. A/B-tester är INTE tillämpliga för en ny funktionalitet.

AA/BB testar förtroendet

Gå tillbaka till det första provet med registreringsknappen. Om vår gissning är korrekt kan vi lägga till fler A-alternativ och fler B-alternativ och ingenting ändras, eftersom B fortfarande kan vinna striden.

Titta sedan på resultaten:

A1: 50 000 besökare - 500 anmälningar A2: 50 000 besökare - 580 registreringar - vinnare B1: 50 000 besökare - 570 anmälningar - vinnare B2: 50 000 besökare - 500 registreringar

VAD! VAD! VAD! Du kan säga att det är omöjligt men den här situationen visar skillnad om tilldelningen av besökare träder i kraft på testresultaten. Och dessa resultat visar stabil 95 % statistisk signifikans men lågt konfidens.

Adaptiv testning

Om vi går tillbaka till början av artikeln kommer vi att märka en enorm trafik på 50 000 besökare och 500 övergångar som krävs för att få ett meningsfullt resultat. Men inte alla sidor har dessa möjligheter. Alla startups är inte tillräckligt bra för att generera sådan trafik, eller så kan det vara sidor med låg trafik som inställningar/fakturor etc. I alla dessa fall kommer klassiska a/b-tester att ta enormt lång tid att samla in data månader/halvår eller så. Nästa nackdel med det allmänna tillvägagångssättet är att minst 50 000 besökare (från 100 000 tilldelade för att testa) fick sämre kundupplevelse. Så vi väntar länge och tappar kunder på grund av allokering till ett "förlorande" test. Är det någon mening? Inom vården korsade läkare fallfrågorna, men i en tabell var människors liv. Om vi gör ett test under häxan dör 50% tålamod på grund av "inte-testat-ännu-vård". Och det är jävla galet. Här är en kille Marvin Zelen som kom på idén om adaptiv testning, nu kallad Zelen’s design.

Kort sagt

Låt oss föreställa oss att vi har två möjligheter: röda och blå bollar, så statistiskt är det 50% sannolikhet.

Till exempel fördelar vi besökare slumpmässigt till "blå" och "blå" är en bättre upplevelse eftersom vi fick ett köp. I det här fallet vinner "blå", det är därför vi lägger till en extra "blå" boll i poolen.

Som ett resultat ändrades sannolikheten "röd" - 33% och "blå" - 67%

Låter bra! Men nästa besökare med "blått" gör ingenting. Så "blå" tappar, det är därför vi måste ta bort en "blå" boll från poolen och vi fick vårt tidigare tillstånd.

Plus: + fungerar för små mängder trafik + ger användarna bättre vård på ett adaptivt sätt Minus: - kräver att utvecklare arbetar för att ta reda på vinnande/förlorade tester under testprocessen

Hjärnskakning

Klassisk A/B-testning fungerar inte för nya funktioner eftersom du inte kan testa något med något
Vanligtvis är A/B-tester INTE representativa även om dina analyser säger att de är det
AA/BB-metoden hjälper till att kontrollera A/B-testresultat – Adaptiv testning är väldigt användbar för liten trafik men kräver handarbete för att räkna ut mål

När du är redo att rocka din sociala medieanalys

prova TrueSocialMetrics!

Starta testperiod
Inget kreditkort krävs.

Fortsätt läsa

Mäta och förbättra AdWords-kampanj

Vårt första försök att använda Adwords var en liten besvikelse :) Trafiken från Adwords hade dålig kvalitet och var mycket dyr. Så här är vår historia hur vi hanterade detta. De främsta orsakerna till vårt fiasko var problem med kvalitetsresultatet för sökorden. Symptomen såg ut så här: nyckelorden var förnedrande med tidens flöde.

Den mest virala typen av pins: Barney's på Pinterest

Jag snubblade över en intressant teknik som Barney använder för att presentera sina kläder och accessoarer på Pinterest. De gör alltid 2 typer av stift för varje produkt: en "Individuell produkt" och en "Produkt i en miljö". Jag kunde inte bara gå förbi och inte jämföra effektiviteten hos båda metoderna för produktrepresentation. Vilken är mer sannolikt att återfästas och gillas - en "enskild produkt" eller en "produkt i en miljö"-format?

Tre saker som alla borde lära sig om Analytics

Din webbplats, sida på sociala medier eller ditt varumärke är som ett mörkt rum – du har ingen aning om vad som händer inuti, hur kunder interagerar med din produkt, vad de tycker om ditt innehåll och så vidare. Det vill säga tills du slår på ficklampan för analys. Plötsligt kan du se att kunderna hatade dina inlägg om superbowl och dina inspirerande ordspråk men helt älskade dina fåniga videor om katter; att de hade problem med att prenumerera på ditt nyhetsbrev på en webbplats och inte har någon aning om hur man navigerar på prissidan.

Lanserar Pinterest Analytics för alla

Stora nyheter, allihop! Vi gör många förändringar denna månad. Om 30 dagar från nu:

Vi flyttar till nya Pinterest api.
Pinterest kommer att vara tillgängligt för alla, för alla planer.
Google+-grupper och Vine-analyser kommer att upphöra.
Premium-planer kommer att upphöra (planer som inkluderar Pinterest/Vine/Google+-gemenskaper).