Predstavte si klasickú diskusiu o tom, čo má byť napísané na tlačidle vo webovom formulári. Jeden senior konzultant hovorí, že najviac ľudí klikne na „Chcem vedieť viac“, druhý senior konzultant si je istý, že „Ukážte mi detaily“ zafunguje aspoň dva krát lepšie.
A/B test na pomoc
Kto má pravdu ukáže najlepšie split test známy aj ako A/B test: časti používateľov (náhodne vybranej) „naservírujeme“ variantu A, druhej časti variantu B a odmeriame, ktorá funguje lepšie.
Nestačí sa spoľahnúť na intuíciu ani skúsenosť: výsledky správania skutočných používateľov často nedokáže predvídať ani veľmi skúsený dizajnér.
Veľkosť vzorky
Keď sa chcete pustiť do split testov (alebo sofistikovanejších testov s viac ako jednou premennou, tzv. multivariate testov), je dôležité vedieť, akú veľkú vzorku – koľko návštevníkov – budete potrebovať. Podstatná nie je samozrejme návštevnosť webu ako celku ale návštevnosť konkrétnej podstránky.
Podľa toho viete odhadnúť, koľko vám test potrvá, a či prípadne potrebujete na web „nahnať“ návštevníkov povedzme cez platenú reklamu, aby ste mali výsledok včas a vedeli s ním ďalej pracovať.
Odpoveď je 42!
Respektíve, odpoveď je:
n = (σZ/E)^2
Rozumiete? Nemusíte. Väčšina programov na split testing (asi najľahšie dostupný pre bežného užívateľa je Google Optimize, predtým Content Experiments v Google Analytics, resp. Google Website Optimizer) test vyhodnotí za vás.
Načo teda vôbec potrebujete vedieť o veľkosti vzorky? Na to, aby ste vedeli, či a čo sa vám v danej chvíli oplatí testovať. Totiž, split testy, ako iné kroky v optimalizácii webu, si vyžadujú zdroje (minimálne tie ľudské, ale často aj finančné).
Preto by ste mali pochopiť aspoň základné princípy týkajúce sa veľkosti vzorky. Potrebná vzorka totiž závisí na tom, ako veľký rozdiel vo výkonnosti testovaných variánt bude a nakoľko si potrebujete byť istí. Ak trochu rozumiete štatistike, pochopíte: ak je rozdiel medzi testovanými variantami malý, budete potrebovať veľa pokusov, aby ste si boli istí, že nameraný malý rozdiel v prospech jednej varianty nie je výsledkom náhody. Naopak, ak je rozdiel vo výkonnosti obrovský, už menší počet pokusov vám ho pomôže spoľahlivo identifikovať.
Intuitívne, čím väčší efekt hľadáme, tým ľahšie ho nájdeme. Ak si chceme byť istí, že jedna z dvoch veľmi podobných variant je povedzme o 10 % lepšia ako druhá (napríklad zvýšenie konverzného pomeru z 10 % na 11 %), potrebujeme odsledovať oveľa vyššie počty používateľov, než sa nám namerané hodnoty ustália.
Tak napríklad, ak sa na vašej stránke na testovanú podstránku denne dostane 400 ľudí a miera konverzie a variantu A je 10 % a variantu B 12 %, potrvá vám skoro dva týždne spoľahlivo zistiť, ktorý testovaný variant je lepší. Čím väčší rozdiel, tým rýchlejši výsledok ale v praxi to môže u menších stránok trvať dlhé mesiace.
Pokiaľ testujete viacero variantov naraz (3 a viac, čomu už hovoríme multi-variate testing), trvá ešte dlhšie zistiť či je testovaný variant skutočne lepší. Potrebná doba (resp. počet návštev) závisí na skutočnom rozdiele medzi variantmi, čo pri zostavení testu neviete – inými slovami, neviete s istotou vopred, ako rýchlo získate konkluzívnu odpoveď.
Kalkulačky veľkosti vzorky
Užitočnú kalkulačku v angličtine nájdete tu (ak chcete pochopiť štatistiku, oplatí sa preštudovať aj výpočty prezentované Jeffom Saurom z Measuring Usability). Štatistické súvislosti podrobne vysvetľuje Lucid View a Kees Schiffers na blogu Visual Website Optimizera.
Do kalkulačky musíme zadať počiatočný konverzný pomer (baseline conversion rate) v percentách a minimálny želaný efekt v percentných bodoch (Minimum detectable effect) – teda zmena konverzého pomeru z 20 % na 15 % je o 5 bodov (alebo o 25 %, ak meriame relatívny efekt v percentách).
Dolné posuvné ovládače nastavujú, akú chybu sme ochotní akceptovať (v akých percentách prípadov úspešne detekujeme minimálny želaný efekt, resp. v akých percentách prípadov ho detekujeme aj keď neexistuje). Štandardné nastavenia pre väčšinu aplikácií stačia (pri 80% v hornom riadku v jednom z piatich prípadov neuvidíme želaný efekt, hoc tam v skutočnosti je).
Všimnite si prepočítaný príklad na obrázku. Ak začíname s konverzným pomerom 10 % a chceme detekovať s 80 % istotou rozdiel v konverznom pomere 1 %, potrebujeme pre každú variantu vyše 14.000 zobrazení. Pre zaujímavosť, ak by nám stačilo detekovať 20 % rozdiel, postačí nám pre každú variantu iba 3.600 zobrazení! Znamená to, že pri nižšom počte zobrazení a skutočnom rozdiele medzi konverznými pomermi o 10 % by nám test „nevypľul“ jednoznačný výsledok.
Kto netestuje, stráca peniaze
Kľúčové je mať urobenú infaštruktúru webu tak, aby sa test ľahko a bez zbytočných nákladov spúšťal, lebo kto netestuje, pripravuje sa o peniaze. To znamená mať interne alebo externe po ruke niekoho, kto dokáže:
1. navrhnúť zmysluplné hypotézy na testovanie
2. pripraviť po dizajnovej, textovej aj programátorskej stránke testované varianty
3. vyhodnotiť výsledky testov
Split testy sú ako droga – keď raz zistíte, ako rýchlo dokážu posunúť web dopredu, ťažko ich nerobiť. Ak máte web s návštevnosťou aspoň v tisíckach, prídite sa o možnostiach A/B testovania porozprávať s našimi špecialistami na optimalizáciu konverzného pomeru (CRO)!
(Článok bol aktualizovaný 24.5.2017, pôvodná verzia článku bola publikovaná 3.9.2014)
One response to “Koľko trvá úspešný A/B test na webe”