A / B Тэставанне: як разлічыць памер узору перад пачаткам тэсту

Выкажам здагадку, вы правялі тэст на а / с ужо тыдзень, і кожны дзень вас цікавяць зацікаўленыя прадпрымальнікі: «Як доўга мы плануем праводзіць тэст? Ці ёсць у нас яшчэ значэнне? ". Гэта не незвычайная сітуацыя. На самай справе ўсе кіраўнікі прадуктамі сутыкаюцца з гэтай праблемай. За выключэннем таго, што мы шмат разоў не ўяўляем, як доўга мы павінны праводзіць тэст, таму мы глядзім на вынікі ў надзеі, што мы дасягнем значэння. Праблемныя злучэнні, калі вы праводзіце тэст, але вы не чакаеце павышэння ўзроўню - гэта можа быць звязана з эстэтычнымі прычынамі або даходам уверх. Як доўга вы павінны гэта запусціць? Хітры, ці не так?

У ідэале мы ніколі не павінны пачынаць тэст, не ведаючы, колькі ўзораў мы збіраем. Чаму? У адваротным выпадку вы будзеце глядзець на дадзеныя, і вы ў рэшце рэшт робіце "Peeking Data", які спыняе тэст, як толькі вы атрымаеце значэнне. Вось прыклад - выкажам здагадку, у вас ёсць манета, і ваша гіпотэза заключаецца ў тым, што гэта справядліва. Як вы гэта дакажаце? Просты - кіньце яго 100 разоў. Але што рабіць, калі ты кінуў яго 10 разоў і ўбачыў хвасты 10 разоў. Здаецца статыстычна важным спыніць тэст у гэты момант часу і адмовіцца ад гіпотэзы Нуля - што манета справядлівая. Што пайшло не так? Вы спынілі тэст крыху занадта хутка. Вы не падумалі пачаць з таго, як доўга вы павінны былі прайсці тэст. Другая праблема, з якой вы можаце сутыкнуцца, калі вы не разлічылі памер выбаркі, - гэта тое, што вы не зможаце з упэўненасцю сказаць, колькі часу вы збіраецеся запускаць тэст.

Дык як мы падыходзім да гэтага?

Выконвайце першае правіла кіравання прадуктам - прыміце неадназначнасць, але пазбягайце нявызначанасці.

Вось як мы можам падысці да вылічэння памеру выбаркі: выкажам здагадку, мы праводзім тэст A / B: дзе: наш бягучы каэфіцыент канверсіі для такой падзеі, як% карыстальнікаў, якія падпісаліся на электронную пошту, складае 10%, і мы чакаем павышэння на 10% пераўтварэнне, калі лячэнне выйграе. Затым

Базавая канверсія: P1 = 20%

Ўзыходжанне ў канверсіі: 10% (Гэта тое, што вы ацанілі як чаканы ўплыў змены). Як частка каманды росту, мы звычайна імкнемся да 20% павышэння, але нават 10% можа быць вялікім у залежнасці ад таго, наколькі пасталеў ваш прадукт. Чым вышэй узнёсся, тым хутчэй вы атрымаеце значэнне.

Чаканая канверсія групы лячэння: P2 = 20% * (1 + 10%) = 22%

Узровень значнасці: гэта шанец ілжывага станоўчага, то ёсць на ўзроўні значнасці 5%, што ёсць верагоднасць таго, што мы адкінем нулявую гіпотэзу, калі гэта было ў рэальнасці (пра што вы ніколі не даведаліся). Вядома, мы хочам звесці да мінімуму гэтую памылку, каб выбраць 5%. Калі ў вас менш трафіку, вы можаце павялічыць яго да 10% ці нават 20%.

Памылкова станоўча: памылка тыпу I - адхіленне нулявой гіпотэзы, калі гэта праўда

Сіла статыстыкі: Гэта верагоднасць таго, што вы атрымаеце ілжывы негатыў. Уфу! Улада (= 1 - памылка II тыпу) - гэта верагоднасць пазбегнуць памылкі тыпу II альбо іншымі словамі. Сіла - гэта верагоднасць таго, што тэст выявіць адхіленне ад нулявой гіпотэзы, калі такое адхіленне існуе. Звычайна мы ўсталёўваем яго на 80%.

Памылковы негатыў: Памылка тыпу II - Адмова адхіліць нулявую гіпотэзу, калі яна не адпавядае рэчаіснасці

Цяпер у нас ёсць усё, што можна на самай справе і разлічыць неабходны памер выбаркі. Мы можам альбо выкарыстоўваць інтэрнэт-калькулятар, электраінструмент G, альбо Р. У залежнасці ад таго, якім інструментам вы карыстаецеся, вы можаце ўбачыць некалькі іншыя лічбы, але гэта нармальна.

Давайце разбярэмся кожны па адным:

а) Інтэрнэт-калькулятар, такі, як гэты тут

б) Выкарыстоўвайце інструмент G * Power: Загрузіце інструмент адсюль. Перайдзіце да сямейства тэстаў "Z тэсты", Статыстычныя тэсты як "Прапорцыі: Розніца паміж двума незалежнымі прапорцыямі" і дадайце P1, P2, Alpha (статыстычная значнасць), магутнасць = 0,8.

Чаканы выхад:

c) R: Функцыя, якую мы збіраемся выкарыстоўваць, гэта power.prop.test (man page).

power.prop.test (n = NULL, p1 = NULL, p2 = NULL, sig.level = 0,05, магутнасць = NULL, альтэрнатыва = c ("двухбаковая", "аднабаковая"), строгая = ЛЕСНАЯ)

Перайдзіце да любога онлайн-кампілятару R, напрыклад, гэты тут і набярыце наступную каманду з n, усталяваных у NULL.

power.prop.test (n = NULL, p1 = 0,2, p2 = 0,22, магутнасць = 0,8, альтэрнатыва = 'two.sided', sig.level = 0,05)

Гэта выхад, які вы атрымаеце ў R

Двухзоркавае параўнанне разлікаў магутнасці прапорцый 
             n = 6509.467 p1 = 0.2 p2 = 0.22 сіг.ўзроўню = 0,05 магутнасці = 0,8 альтэрнатывы = два.
УВАГА: n - лік у кожнай групе *

Гэта значыць, што нам спатрэбіцца каля 6510 узораў у кожнай групе. А значыць, нам спатрэбіцца 13020 трафіку.

Давайце выкажам здагадку, што вы гістарычна ведаеце, што трафік вашага сайта складае 2000 наведвальнікаў, тады вы ведаеце, што вы павінны правесці тэставанне гіпотэзы на працягу 6,51 дня або 7 дзён.

Бонусны бал: Гэта заўсёды добрая ідэя асвятляць усе дні тыдня, паколькі ў большасці прадпрыемстваў ёсць «тыднёвая нестандартнасць» у сваім шаблоне попыту.

Цяпер у наступны раз, калі вы збіраецеся запускаць тэст A / B, загадзя разлічыце неабходны памер выбаркі, каб вы маглі ўсталяваць патрэбныя чаканні для сваіх зацікаўленых бакоў у бізнесе.

На ўсялякі выпадак, калі вы выявілі, што памер узору значна большы, і вы не думаеце, што атрымаеце значэнне, улічваючы трафік, які мае ваш вэб-сайт, не хвалюйцеся, у іншым паведамленні я падзялюся некалькімі цікавымі хітрасцямі пра тое, як запусціць A / B праверце, калі ў вас недастаткова трафіку. Да гэтага часу шчаслівыя а / б выпрабаванні.