Zlobivé AB testy

AB Testing Front Image

Jak AB testuje běžný markeťák

Většina webových projektů a eshopů neustále řeší problém, co je pro jejich web lepší, jestli varianta stránky A nebo varianta B.  Ať už se pod označením variantou skrývá cokoliv – barva tlačítka, pozice na stránce nebo algoritmus, který obsluhuje zákazníky.

Jak takový AB test vyhodnotit? Marketingový pracovník si KPI buď zvolí sám (a typicky použije taková KPI, která získá bez práce, tj. která rovnou vidí v AB testovacím nástroji nebo v Google Analytics) nebo reportuje šéfovi a použije KPI, která mu nařídil šéf, a nebo se snaží jednat jako majitel a použije selský rozum a dospěje ke KPI, která jsou skutečně důležitá. Často markeťáci skončí jen u snadno zjistitelných KPI.

První chyba při vyhodnocování AB testu nastane už volbou špatných KPI. Příklad: pokud mám 2 varianty banneru na homepage, kde jeden banner ukazuje produkt a druhý nahatou slečnu, tak je možné, že při pohledu na proklikovost banneru (CTR) vyberete jako vítěznou variantu banner s nahatou slečenou. Pokud byste si ale dali více práce s vyhodnocením AB testu, tak vám ale může vyjít, že více produktů prodáte s první variantou banneru bez slečny.

Typický marketingový pracovník je relativně líný. Věnuje velkou pozornost tomu, co je vidět, tedy vizuální podobě AB testu. Pak už to nechá na „chytrém nástroji“, aby rozhodl, co je lepší. Tedy opět to nechá na tom, co je na první pohled vidět, tedy na zobrazených číslech. Bohužel řada nástrojů není tak chytrá, jak to vypadá, a zobrazuje jen polovinu pravdy (pokud se markeťák dokonce nerozhodl realizovat AB test sám, tak, že návštěvníky náhodně rozdělí do 2 stejně velkých skupin A a B).

I nám se před lety stalo, že jsme zapomínali na spolehlivost měření AB testů a pak jsme rvali vlasy, proč z nich občas vychází takové nesmysly. Teď už jsme chytřejší. Tím, že čtete tento článek, jste se zařadili do skupiny markeťáků, kteří si zjišťují informace a používají selský rozum. Věřím, vám tento článek pomůže rozšířit obzory, aby jste věděli na co si dávat pozor.

Pojďme se podívat na reálné případy, co může během AB testování nastat.

Chcete spolknout červenou a nebo modrou pilulku?

Hloupé měření: Návštěvníky jsme náhodně rozdělili na stejně velké skupiny A a B. Tyto data jsme reportovali do Google Analytics jako vlastní proměnnou. Přes pokročilé segmenty jsme si vypsali jak se liší sledované metriky/KPI. Vyšlo nám, že obrat je +10%. Máme skákat radostí? U druhého eshopu nám vyšlo, že obrat je -10%. Máme se trápit?

Jestli jste viděli film Matrix a chcete si vybrat modrou pilulku, tak čtěte dále. Pokud jste neviděli Matrix, tak se na něj dnes večer podívejte a pak se vraťte k tomuto článku. Pokud jste si vybrali červenou pilulku, tak zavřete prohlížeč, smažte cookies, a jďete slavit či zapíjet žal, že to ve vašem případě funguje/nefunguje.

Podívejme se na čísla z Google Analytics z jednoho reálného nejmenovaného eshopu s oblečením. Místo AB testu jsme udělali AAAA test. Tj. rozděli návštěvníky na 4 stejně velké skupiny a nechali si v reportu zobrazit metriky pro každou variantu testu.

people-groups

Po měsíčním AAAA testování proběhlo v každé variantě cca 25tis návštěv, takže dat je dost a marketingoví šarlatáni by ten AB test prohlásili za spolehlivý. Dokonce na internetu existují kalkulačky, kam zádáte počet session a počet transakcí a ono vám to řekne, jak moc je AB test spolehlivý. Omyl!!! Tohle je jeden z nějvětších omylů kolem AB testování. Podívejme se proč.

ga-session-metrics

Sessions Users Pageviews
průměr 25542 16130 116210
prům.odchylka 214 65 1615
prům.odchylka 0,8% 0,4% 1,4%

 

Jak vidíte, tak na běžných metrikách jako je počet session, počet unikátních uživatelů, počet pageviews se dosahuje velmi malých odchylek mezi variantami. (Přeci jen náhodné rozdělení v poměru 25:25:25:25 ještě neznamená, že budou všechny skupiny přesně stejně velké, malá chyba měření tam je). Tak že by ti šarlatáni měli pravdu? Můžeme na základě malých odchylek prohlásit AB test za spolehlivý a věřit jeho výsledkům. Omyl! Spolehlivost pro 1 metriku ještě neznamená, že bude stejně velká spolehlivost pro všechny ostatní metriky. Je obrovský rozdíl v 0/1 metrikách jako je návštěva a v metrikách, kde se hodnota na 1 návštěvu pohybuje v rozsahu od nuly do tisíců.

Podívejme se, jak se pohybuje obrat (revenue) ve stejných 4 variantách jako na předhozím obrázku:

ga-transaction-metrics

Transactions Revenue Quantity
Průměr 429 678986 777
prům.odchylka 39 74779 79
prům.odchylka 9,0% 11,0% 10,2%

 

Průměrná odchylka na finančních metrikách je kolem 10%. Tedy rozdíly v AB testování mezi A a B menší než 10% můžeme považovat za nic neříkající chybu měření a nemáme podle čeho rozhodnout, jestli je pro eshop lepší varianta A nebo B.

Co s tím? Můžete nechat AB test běžet déle, ale jak si ukážeme, tak ani to vám nemusí pomoci. Někdy se některé věci přesně změřit nedají – neustále je to jen pravděpodnostní obláček z rozsahu ±10%.

Co je to „revenue“ ve variantě AB testu?

Nejpíše máte pocit, že se v Google Analytics dá změřit všechno přesně. To máte pravdu, je to tak. Problém ale nastává v tom, že si pleteme pojmy nebo děláme špatné závěry. Pokud máme pevně daný segment, pro který chceme obrat změřit, tak ho změříme přesně. Pokud ale chceme změřit obrat náhodně vybraného 50% segmentu všech návštěvníků, tak má metrika “revenue” jiný význam. Náhodný výběr skupiny způsobí, že rázem sledujeme náhodnou veličinu “revenue”. Ta, už není přesným číslem, ale je to pravděpodobnostní obláček (má určitou hodnotu s určitou pravděpodností). Očekávaná hodnota náhodné veličiny (něco jako průměr) nám neřekně vše. Průměry jsou někdy zavádějící – například víte, že máte nadprůměrný počet očí?

Pravděpodobnost, že součet náhodných veličin (pro každého návštěvníka jedna) s rovnoměrným rozložením pravděpodobností nabude určitou hodnotu, sedá zobrazit jako Gausova křivka rozložení pravděpodnosti.

gauss-distibution

Druhý laický pohled je podívat se na očekávanou hodnotu obratu a spolehlivost v závislosti na velikosti skupiny.

Total Revenue ± 0

Revenue per visitor group ± 99%

Revenue per random visitor ± 9999%

Pro všechny dohromady je očekávaný obrat změřen přesně (je co celkový obrat eshopu). Pro jednoho náhodného návštěvníka je očekávaný obrat zatížen velkou chybou, protože někteří zákazníci nakoupí za 20Kč a jiný za 200tis Kč. Se změnou velikosti skupiny návštěvníků se bude měnit i průměrná odchylka.

Pokud bychom postupovali pouze podle této teorie, tak by stačilo počkat dostečně dlouho, až nasbíráme více dat, více návštěv, více nákupů a tím se chyba měření změnší. Bohužel v praxi nastává ještě jedna problematická věc a to je výběrová chyba.

Výběrová chyba AB testu

Návtěvníky rozdělujeme náhodně do skupin A a B. Díky tomu bude v obou variantách přibližně stejně návštěvníků. Ale bohužel nejsou všichni návštěvníci stejní a tak se může stát, že 4 z 5 vyjímečných velkozákazníků padne do stejné varianty. Pokud velkozákazník nakupuje za výrazně více peněz, tak to pěkně rozhodí celý AB test. Představte si například extrémní případ, kdy 5 velkozákazníků dělá dohromady 60% obratu.

“Není zákazník jako zákazník“

Kdo jsou vyjímeční zákazníci:

  • 5% top zákazníků s mnoha opakovanými nákupy
  • Zákazníci, na které máme email a kterým rozesíláme newslettry
  • Zákazníci ochotní si koupit notebooku za více jak 60tis Kč
  • B2B zákazníci z velké města vs z malého města
  • Kdo jsou vaši vyjímeční zákazníci?

Co s tím? Důležité je, abyste věděli, kteří zákazníci jsou vyjímeční a čím, měli je rozpoznané a označkované a mohli si výsledky AB testu rozpadnout po zákaznických skupinách. Díky tomu můžete dospět například k závěru, že varianta B obecně škodí, ale pro zákazníky přihlášených k newslettrům naopak hodně pomáhá. Pak už je to jen věcí personalizace vašeho eshopu, aby každému zákazníkovi nabídli tu správnou variantu.

Proč se chyba způsobená výběrovou chybou nespraví ani když počkám dalších 10 měsíců? Je to z toho důvodu, že AB test je konzistentní. Jakmile někdo spadnul do varianty A, tak v ní zůstane po celou dobou testu. Když by tedy všech 5 vyjímečných zákazníky spadlo do varianty A, tak už se z ní nikdy do varianty B nedostanou.

Pro pobavení přikládám hodnoty naměřené za 1 měsíc na jednom reálném eshopu, který v Google Analytics nerozlišuje velko a malo zákazníky:

ga-transaction-metrics-extrem

Věřili byste, že pro 5 stejně velkých skupin, které viděli ten samý eshop, se může obrat lišit až 3x? Může se stát.

Kde všude se pleteme?

Pleteme se všude, kde se zaměňuje přesné měření obratu s očekávanou hodnotu obratu (která má určitou spolehlivost/chybu měření). Například

  • Jednoduché AB testy na webu
  • AB testy emailových kampaní před rozesílkou na celou databázi
  • Srovnání 2 marketingových kampaní v Google Analytics

Základní otázka, kterou si musíme klást navíc je „Jaká je spolehlivost očekávané hodnoty dané metriky?“.

Rozhodování se o investicích do marketingových kampaní na základě historických dat v Google Analytics bývá často zatíženo podobnou chybou v interpretaci čísel. Historická data jsme změřili přesně, ale budoucí data už jsou jen náhodnou veličinou a proto musíme u každé kampaně znát i spolehlivost měření. Příklad: Dáte 100tis Kč do kampaně, která vám přinese 200tis±5tis Kč a nebo do kampaně, která vám přinese 250 tis±100tis Kč? Podle hesla odvážnému štěstí přeje zvolíte druhou kampaň, ale pokud potřebujete jisté cashflow, tak zvolíte raději první kampaň.

Závěr

Používejte svůj selský rozum a nástroje, které vám u náhodných veličin ukazují i spolehlivost pro každou měřenou metriku. Smiřte se s tím, že závěrem AB testování může být „dopad na obrat se nedá přesně změřit.“

… a nebo se na to vykašlete. Prostě reportuje šéfovi hezká čísla, která jsou posvěcená tím, že jsou z Google Analytics, bez ohledu na to, jak ve skutečnosti souvisí s potřebným měřením.

Note: Víte že buřty s cibulí jsou lepší než věčná blaženost? To je přeci jasné. Je snad něco lepšího než věčná blaženost? No nic. A buřty s cibulí jsou přeci lepší než nic.

 

Kontaktujte Persoo. Změříme vám spolehlivost vašich marketingových kampaní.