skip to Main Content

Na co si dát pozor při vyhodnocování AB testů

Na Co Si Dát Pozor Při Vyhodnocování AB Testů

Většina webových projektů a e-shopů neustále řeší problém, zdali je pro jejich web lepší varianta stránky A nebo varianta B. Ať už se pod variantou A, či B skrývá cokoliv – barva tlačítka, pozice na stránce nebo algoritmus, který obsluhuje zákazníky, vyhodnocení nemusí být na první pohled tak jednoznačné, jak se může zdát.

Jak AB test objektivně vyhodnotit? Nejčastější chybou, se kterou se setkáváme jsou nedostatečně či špatně definovaná KPI. Definování KPI a toho, co chceme měřit je naprosto klíčové pro určení spolehlivosti AB testu. Bohužel, spousta marketingových pracovníků se dívá pouze na vyšší míru CTR varianty A, či varianty B, už ale nesleduje další metriky navázané na AB test, jako například výše obratu, či snížení/zvýšení vratkovosti. Případně AB test hodnotí pouze dle jedné veličiny a nevyhodnotí jej komplexně. 

Může se totiž stát, že v AB testu stojí proti sobě dva bannery s rozdílným obsahem, kdy jeden má vyšší klikatelnost než druhý. Na první pohled po vyhodnocení CTR se může výsledek jevit jasně, ale při bližší analýze lze zjistit, že banner s nižším CTR poměrem prodal více zboží a tudíž jeho vliv na obrat je větší. Jak je to možné?

Pojďme se podívat na reálné případy, co může během AB testování nastat.

Podívejme se na čísla z Google Analytics z jednoho reálného eshopu s oblečením. Místo AB testu jsme udělali AAAA test. Tj. rozdělili návštěvníky na 4 stejně velké skupiny a nechali si v reportu zobrazit metriky pro každou variantu testu.

Po měsíčním AAAA testování proběhlo v každé variantě cca 25tis návštěv, tudíž dat je dostatek, abychom AB test prohlásili za spolehlivý. Nicméně toto je jeden z největších omylů kolem AB testování. Podívejme se proč.

ga-session-metrics

Sessions Users Pageviews
průměr 25542 16130 116210
prům.odchylka 214 65 1615
prům.odchylka 0,8% 0,4% 1,4%

 

Jak vidíte, tak na běžných metrikách jako je počet session, počet unikátních uživatelů, počet pageviews se dosahuje velmi malých odchylek mezi variantami. (Přeci jen náhodné rozdělení v poměru 25:25:25:25 ještě neznamená, že budou všechny skupiny přesně stejně velké, malá chyba měření tam je). Nicméně spolehlivost pro 1 metriku ještě neznamená, že bude stejně velká spolehlivost pro všechny ostatní metriky. Je obrovský rozdíl v 0/1 metrikách jako je návštěva a v metrikách, kde se hodnota na 1 návštěvu pohybuje v rozsahu od nuly do tisíců.

Podívejme se, jak se pohybuje obrat (revenue) ve stejných 4 variantách jako na předchozím obrázku:

ga-transaction-metrics

Transactions Revenue Quantity
Průměr 429 678986 777
prům.odchylka 39 74779 79
prům.odchylka 9,0% 11,0% 10,2%

 

Průměrná odchylka na finančních metrikách je kolem 10%. Tedy rozdíly v AB testování mezi A a B menší než 10% můžeme považovat za nic neříkající chybu měření a nemáme podle čeho rozhodnout, jestli je pro eshop lepší varianta A nebo B.

Co s tím? Můžete nechat AB test běžet déle, ale jak si ukážeme, tak ani to nemusí pomoci. Někdy se některé věci přesně změřit nedají – neustále je to jen pravděpodobnostní obláček z rozsahu ±10%.

Co je to „revenue“ ve variantě AB testu?

Nejspíše máte pocit, že se v Google Analytics dá změřit všechno přesně. To máte pravdu, je to tak. Problém ale nastává v tom, že někdy děláme špatné závěry. Pokud máme pevně daný segment, pro který chceme obrat změřit, tak ho změříme přesně. Pokud ale chceme změřit obrat náhodně vybraného 50% segmentu všech návštěvníků, tak má metrika “revenue” jiný význam. Náhodný výběr skupiny způsobí, že rázem sledujeme náhodnou veličinu “revenue”. Ta už není přesným číslem, ale je to pravděpodobnostní obláček (má určitou hodnotu s určitou pravděpodobností). Očekávaná hodnota náhodné veličiny (něco jako průměr) nám neřekne vše. Pravděpodobnost, že součet náhodných veličin (pro každého návštěvníka jedna) s rovnoměrným rozložením pravděpodobností nabude určitou hodnotu, se dá zobrazit jako Gausova křivka rozložení pravděpodobnosti.

gauss-distibution

Druhý laický pohled je podívat se na očekávanou hodnotu obratu a spolehlivost v závislosti na velikosti skupiny.

Total Revenue ± 0

Revenue per visitor group ± 99%

Revenue per random visitor ± 9999%

Pro všechny dohromady je očekávaný obrat změřen přesně (je co celkový obrat eshopu). Pro jednoho náhodného návštěvníka je očekávaný obrat zatížen velkou chybou, protože někteří zákazníci nakoupí za 20 Kč a jiný za 200 tis. Kč. Se změnou velikosti skupiny návštěvníků se bude měnit i průměrná odchylka.

Pokud bychom postupovali pouze podle této teorie, tak by stačilo počkat dostatečně dlouho, až nasbíráme více dat, více návštěv, více nákupů a tím se chyba měření zmenší. Bohužel, v praxi nastává ještě jedna problematická věc a to je výběrová chyba.

Výběrová chyba AB testu

Návštěvníky rozdělujeme náhodně do skupin A a B. Díky tomu bude v obou variantách přibližně stejně návštěvníků. Ale bohužel nejsou všichni návštěvníci stejní a tak se může stát, že 4 z 5 výjimečných zákazníků padne do stejné varianty. Pokud tito zákazníci  nakupují za výrazně více peněz, tak to pěkně rozhodí celý AB test.

“Není zákazník jako zákazník“

Kdo jsou vyjímeční zákazníci:

  • 5-10 % top zákazníků s mnoha opakovanými nákupy a vyšší průměrnou hodnotou objednávky
  • Zákazníci, na které máme email a kterým rozesíláme newslettry
  • Zákazníci ochotní si koupit notebook za více jak 60 tis. Kč
  • B2B zákazníci z velké města vs. z malého města

Co s tím? Důležité je, abyste věděli, kteří zákazníci jsou výjimeční a čím, měli je rozpoznané a označkované a mohli si výsledky AB testu rozpadnout po zákaznických skupinách. Díky tomu můžete dospět například k závěru, že varianta B obecně škodí, ale pro zákazníky přihlášených k newsletterům naopak hodně pomáhá. Pak už je to jen věcí personalizace vašeho eshopu, aby každému zákazníkovi nabídl tu správnou variantu.

Proč se chyba způsobená výběrovou chybou nespraví ani když počkám dalších 10 měsíců? Je to z toho důvodu, že AB test je konzistentní. Jakmile někdo spadl do varianty A, tak v ní zůstane po celou dobou testu. Když by tedy všech 5 výjimečných zákazníků spadlo do varianty A, tak už se do varianty B nedostanou.

Pro příklad  si ukážeme hodnoty naměřené za 1 měsíc na reálném eshopu, který v Google Analytics nerozlišuje velké a malé zákazníky:

ga-transaction-metrics-extrem

Věřili byste, že pro 5 stejně velkých skupin, které viděli ten samý eshop, se může obrat lišit až 3x?

Kde všude se pleteme?

Pleteme se všude, kde se zaměňuje přesné měření obratu s očekávanou hodnotu obratu (která má určitou spolehlivost/chybu měření). Například

  • Jednoduché AB testy na webu
  • AB testy emailových kampaní před rozesílkou na celou databázi
  • Srovnání 2 marketingových kampaní v Google Analytics

Pleteme se všude, kde se zaměňuje přesné měření obratu s očekávanou hodnotu obratu (která má určitou spolehlivost/chybu měření). Například:

  • Jednoduché AB testy na webu
  • AB testy emailových kampaní před rozesílkou na celou databázi
  • Srovnání 2 marketingových kampaní v Google Analytics

Základní otázka, kterou si musíme klást navíc je „Jaká je spolehlivost očekávané hodnoty dané metriky?“

Rozhodování o investicích do marketingových kampaní na základě historických dat v Google Analytics bývá často zatíženo podobnou chybou v interpretaci čísel. Historická data jsme změřili přesně, ale budoucí data už jsou jen náhodnou veličinou a proto musíme u každé kampaně znát i spolehlivost měření. Příklad: Dáte 100 tis. Kč do kampaně, která vám přinese 200 tis. ±5 tis. Kč a nebo do kampaně, která vám přinese 250 tis. ±100 tis. Kč? Podle hesla odvážnému štěstí přeje zvolíte druhou kampaň, ale pokud potřebujete jisté cashflow, tak zvolíte raději první kampaň.

Závěr

Používejte svůj selský rozum a nástroje, které vám u náhodných veličin ukazují i spolehlivost pro každou měřenou metriku. Smiřte se s tím, že závěrem AB testování může být „dopad na obrat se nedá přesně změřit.“

Na výsledky AB testů se dívejte komplexně a vyhodnocujte dle více veličin, než jen podle proklikovosti. Spočítejte si pravděpodobnostní odchylky, odfiltrujte výrazné výkyvy a výsledky AB testů reportujte nejen dle průměru, ale také dle mediánu. 

TIP Persoo:

Chceme, aby naše AB testy byly naprosto spolehlivé a průkazné. Proto u našich klientů rozdělujeme AB test na 10 skupin. Pět variant A, pět variant B. Díky tomu vám pro každou metriku řekneme i spolehlivost měření (tedy například že to nebyl jen šum či výběrová chyba)..

Back To Top