Еще немного про A/B тесты. Чтобы уложить в голове базовые понятия о статистической значимости и мощности, надо понять как вообще работают A/B тесты.
Нулевая гипотеза
Допустим у нас есть два события и мы хотим понять, есть ли между ними связь (улучшили страницу → увеличилась конверсия, стали давать лекарство → люди больше выздоравливают и так далее)
Мы принимаем по умолчанию предположение, что эти события никак не связаны. Это предположение и есть нулевая гипотеза, обычно обозначается как H₀.
Наша задача, как экспериментаторов, не доказать связь каких-то событий, а доказать, что нулевая гипотеза (которая говорит, что они не связаны) не верна. Например сказать, что исходя из наблюдаемых данных опыта нулевая гипотеза очень маловероятна и поэтому мы ее отвергаем. Если нулевая гипотеза отвергнута, то значит связь между событиями есть.
Это тонкое, но важное различие: опровергать то, что связи нет, а не искать аргументы почему связь событий есть (последнее не всегда является достаточными доказательствами связи).
Смысл A/B теста как раз показать, что нулевая гипотеза очень маловероятна на наблюдаемых данных, значит она скорее всего неверна, есть связь событий и (допустим) изменение страницы действительн приводит к увеличению конверсии.
Статистическая значимость
У каждого эксперимента есть уровень cтатистической значимости (α). Это вероятность отклонить (признать неверной) нулевую гипотезу, если все же она верна. Другими словами это вероятность получить результат, что события связаны , хотя на самом деле связи нет.
Такие ошибки называют еще ошибками первого рода, false positive, “ложная тревога”.
Обычно в A/B тестах выбирают значение 5%. Это означает, что в ¹/₂₀ экспериментов, мы получаем такие маловероятные данные, что видим связь там, где ее совсем нет.
Чем больше статистическая значимость, тем меньше процент таких ошибок.
Если данные эксперимента показывают, что вероятность увидеть связь там, где ее нет для конкретного эксперимента (это называется p-значение, p-value) меньше чем наш заранее заданный параметр значимости, то этот эксперимент называют статистически значимым.
Статистическая мощность
У каждого эксперимента есть уровень cтатистической мощности (β). Это вероятность отклонить (признать неверной) нулевую гипотезу, если она на самом деле неверна. Другими словами это вероятность получить результат, что события связаны , когда они на самом деле связаны (1−β).
Чем больше статистическая мощность, тем чаще мы будем находить связь, когда она действительно есть. Если в A/B тесте мощность 80%, то в ¹⁶/₂₀ экспериментов мы обнаружим связь, если она действительно есть, а в ⁴/₂₀ не обнаружим (результат будет статистически не значим). Если 95% — ¹⁹/₂₀ и ¹/₂₀ соответственно. Тест может иметь и 100% мощность (мы всегда получим значимые результаты, если есть связь между событиями, но учитывая возможные false positive, то есть возможность увидеть связь даже если ее нет).
Такие ошибки необнаружения называют еще ошибками второго рода, false negative, “пропуск цели”. Больше мощность теста — меньше таких ошибок.
Чем больше мощность и меньше статистическая значимость, тем больше вероятность увидеть связь, если она действительно есть и не увидеть связь, если ее нет. Выборка должна быть большая (она еще зависит от минимально обнаруживаемого эффекта, но это отдельный разговор) и тест идет дольше.
Маленькая мощность — мы не видим связь, когда она существует. Большой уроверь значимости — мы видим связи там, где их никогда не было. Выборка в этом случае сильно меньше и тест идет быстрее.
Поиграться со значеними и их влиянием на размер выборки можно тут: https://www.evanmiller.org/ab-testing/sample-size.html