Май 2020 — Заметка №6

Неплохой сборник советов (английский) про то, как правильно проводить A/B тесты.

A/B тесты это очень мощный инструмент, который может пролить свет на многие неопределенности. Но как любой мощный инструмент его очень легко использовать неправильно.

Самые важные мысли из статьи, которым одновременно просто следовать:

a) Перед проведением теста подсчитать его длительность (размер каждого сегмента).
Вполне возможно будет так, что наблюдаемое нужное событие достаточно редко, а объем трафик так мал, что эксперимент будет идти много месяцев или лет.

Скорее всего в этом случае запускать A/B эксперимент не имеет смысла (имеет он смысл тогда только если вы ожидаете действительно сильное изменение).

Калькуляторов длительности A/B тестов много. Я использую вот этот, но их много разных.

б) Включать в тест только людей, которые задеты изменением.
Это уменьшает “шум” и увеличивает шанс того, что изменение будет обнаружено. В статье приводят два примера.

в) В процессе тестирования нужно минимизировать ошибки первого рода: false positive (“ложная тревога”, нашли связь/отличие, которой на самом деле не существует).

Для этого нужно как можно меньше “крутить” данные разными способоми. Минимизировать количество отдельных “мини-экспериментов” в рамках A/B теста. То есть:

Каждый такой “срез” это как-бы мини-эксперимент сам по себе и чем их больше — тем больше шанс увидеть связь/подтвердить гипотезу (“тестовая страница работает лучше”) там, где ее на самом деле нет / гипотеза не верна.

Я про это писал и делал модель в посте про Десять тысяч A/B тестов.

г) Проверять на равное распределение сегментов.
Пользователи должны быть распределены по сегментам примерно 50 на 50. Если распределение другое — скорее всего в тесте ошибка и ему нельзя доверять.

Хорошие инструменты для проверки результатов тестов, типа AB Testguide, сами об этом предупредят.

д) Осторожно выпускать штуки, которые не показали в тестах никаких изменений.
Если A/B тест не нашел влияния изменения, это не значит, что влияния нет. Возможно оно есть (положительное или отрицательное), просто слишком мало, чтобы тест его нашел.

Поэтому есть опасность, что постоянный выпуск штук, которые не показывают изменений, могут привести к накоплению негативных эффектов.

Имеет смысл оценивать такое “нейтральное” изменение критически и с помощью здравого смысла — может ли оно повредить? Полезно ли оно? Стоит ли рискнуть тут?