Темная сторона метрик и KPI — когда метрики стреляют нам в коленку

В сентябре 2019 я выступил на фестивале 404 с докладом “Темная сторона метрик и KPI”. Рассказал про обратную сторону метрик, когда они могут вредить, мешать и неожиданно стрелять в коленку.

Запись выступления на Ютубе
Посмотреть слайды

Ниже можно прочитать отредактированный текстовый вариант рассказа.

Метрики это важно и полезно

Я считаю, что метрики – это важно и полезно. С этим никто не спорит. Скорее всего вы уже или следуете каким-то метрикам, то есть кто-то измеряет вас или результат вашей работы. Или же вы сами ставите измеримые цели кому-то. Метрики, KPI – есть в каждом продукте и проекте. От них никуда не уйти.

Польза метрик в том, что они защищают от ошибок. Наше суждение субъективно, подвержено эмоциям, основано на неполных данных. Для того, чтобы не ошибаться и принимать правильные решение, нам нужно основываться на чем-то более реальном и объективном. Метрики это как раз такая штука. Они позволяют основывать субъективные решения на реальных сигналах от мира.

Реальный мир — сложный и его непросто понять целиком. Но нам по прежнему нужно принимать решения и действовать. Для того, чтобы сложный реальный мир свести к чему-то более простому существуют метрики. Метрики – это прокси. По сути они – упрощенная проекция реального мира на что-то, что можно измерить. Это даёт возможность работать с миром через его модель.

Приведу пример. Можете ли вы представить четырехмерный куб?

У четырехмерного куба есть дополнительная размерность. Мы существуем в трехмерном пространстве, поэтому нам сложно представить тессеракт. Но мы можем посмотреть на проекцию четырехмерного куба на трехмерную реальность.

Это показывает то, как работают метрики. Существует сложно познаваемый четырехмерный куб. Существует проекция на которую можно посмотреть. Эта проекция — не настоящий четырехмерный куб. Это всего лишь модель. Но она нам дает примерное понимание, как же эта штука работает и что же это вообще такое.

Обратная сторона проекций

Метрики — хорошая штука, но разговор сегодня про их тёмную сторону.

Все массовые популярные карты используют проекцию Меркатора. Карта – пример метрики, потому что это проекция реального мира на что-то более простое и измеримое, чтобы принимать решения.

Например моряки использую карты, чтобы добраться из точки А в точку Б. У проекции Меркатора есть отличный мореходный плюс: если вы хотите добраться из одной точки в другую, то на карте эта линия будет прямой.

И у этой проекции есть проблема — неправильные размеры стран. Все известные карты, на которые мы смотрим, нас обманывают. Например гигантская Гренландия не такая большая.

Если страна ближе к полюсам, то она раздувается. Это пример того, как полезная метрика(карта, которая помогла миллионам моряков) может нас обмануть и сбить с толку. И мы начинаем думать, что Гренландия это гигантский остров.

Темная сторона метрик — обратная сторона их светлой стороны. Проекция настоящего мира в каких-то областях всегда не совпадает с реальностью.

Закон Гудхарта

Главная штука, про которую нужно знать при работе с метриками, это закон Гудхарта.

Если у вас есть KPI или метрика, которую вы используете для измерения достижения цели и эта метрика публично известна, то метрика сразу становится плохим способом измерения достижения цели.

То есть другими словами, если вы начали что-то измерять и всем об этом сказали, то это измерение сразу начинает портиться. Больше ему нельзя доверять на 100%. Особенно если на это измерение завязаны деньги, материальное поощрение и все такие штуки, которые люди хотят получить.Потому что люди, явно или неявно начнут оптимизировать на эту метрику в ущерб целям.

Теперь немного примеров и баек.

Кобры в Индии
Отличная история произошла в Индии, когда она ещё принадлежала Британии. Как-то британцы подумали, что них развелось слишком много ядовитых змей. Они решили платить немного денег каждому индийцу за убитую змею — принёс убитую кобру, тебе дали денег.

Казалось бы, что могло пойти не так? А предприимчивые индийцы вместо того, чтобы бегать по лесам и ловить кобр, начали заводить фермы кобр в своих деревнях. Разводить кобр, а когда кобра достаточно подросла — убивать её и приносить британцам. Когда британцы об этом узнали, то программа была закрыта. Индийцам фермы кобр стали больше не нужны, поэтому их всех выпустили и в итоге кобр стало больше.

Крысы во Вьетнаме
Похожее событие произошло во Вьетнаме, но уже с крысами и французами. Вьетнам, протекторат Франции, очень много крыс. Французы решили платить деньги за каждую убитую крысу.

Но кому приятно пересчитывать дохлых крыс, поэтому деньги стали платить за отрубленные хвосты у мертвых крыс.

Можно представить, что было дальше. Предприимчивые вьетнамцы стали ловить крыс, отрубать им хвосты, а крыс отпускать обратно, чтобы крысы плодились дальше. Больше крыс, больше хвостов, болье денег в будущем. Получилось совсем не то, что хотелось.

Сироты Дюплесси
Третья история не смешная и очень трагичная. Она произошла совсем недавно, в первой трети ХХ века в Канаде. Федеральное правительство Канады платило деньги Квебеку(канадский округ) за содержание сирот в приютах. Приютами тогда управляла католическая церковь. И если в приюте есть сироты, то федеральное правительство Канады платило церкви $1.5 за каждого сироту, где его содержали. Проблема была в том, что на содержание психически нездорового человека федеральное правительство давало уже $3 доллара.

И произошла ужасная история, когда управляющие приютов, включая католическую церковь, начали массово записывать сирот в психически нездоровые. Босоногий мальчишка бегает по улице и дерзит старшим — разумеется, он нездоров (сарказм). Жизнь многих детей (по оценкам больше 20 тысяч) была безвозвратно испорчена ради того, чтобы получать большие суммы субсидий от федерального правительства.

Риелторы
Другой, более современный пример. Вы нанимаете риелтора, чтобы купить или продать квартиру. Допустим, вы платите риелтору какой-то процент от стоимости квартиры.

Казалось бы, что могло пойти не так? Если вы покупаете квартиру, то вам выгодно купить квартиру дёшево. Но если риелтор получает процент от сделки, то риелтору невыгодно купить квартиру очень дёшево. Риелтору выгодно купить квартиру, как можно дороже, но так, чтобы вы всё же согласились на сделку.

Такая же проблема возникает, если вы продаёте квартиру и платите процент от сделки. Казалось бы, риелтор должен боротьсяза увеличение своего процента. Но для риелтора при продаже, например, за 3 миллиона или за 3.2 миллиона разница в получаемых процентах будет настолька мала, что ему невыгодно сильно торговаться. Риелтору выгодно как можно быстрее закрыть сделку, так как общая сумма процентов от сделки всегда интереснее, чем потенциальное увеличение бонуса с большим риском отказа от сделкт.

Это еще один пример, когда бонус, материальная компенсация искажают поведение человека в неожиданную сторону.

Отличный пожарный Джон Орр.
Следующая история произошла лет 20 назад. В 80-х годах в Америке жил отличный пожарный Джон Орр. У него был потрясающее чутьё на то, где и как произошло возгорание. Он приезжал на пожар и мог сразу сказать, где загорелось. Он очень быстро, частро быстрее всех, прибывал на пожары. Пожар случился, а он уже тут как тут с насосом тушит.

Джон Орр стал известен. Получил кучу премий, выступал на конференциях, написал много научных статей.

А потом оказалось, что он сам устраивал пожары. За 10 лет сделал около 2000 поджогов. Сам поджигал и сам потом умело тушил (знал где тушить).

А поймали его так. Этому отличному пожарному стало так скучно, что он написал книжку, где описал пожарного, который сам устраивает поджоги. А в начале книжки написал, что основано на реальных событиях. Книжку прочитали, схватились за голову и тут всё и выяснилось.

И все эти 10 лет Джон Орр был идеальным пожарным по всем метрикам. Раньше всех прибывал на пожар, лучше всех тушил. Золотой человек.

Водители такси
Если вы когда-нибудь будете ехать в такси долгое время, разговорите вашего водителя. Вам могут рассказать, как таксисты обманывают агрегаторы и их метрики, чтобы зарабатывать больше.

Мне один таксист рассказывал про то, как какой-то агрегатор пришёл в новый город. Агрегатор платил бонус за каждую поездку. Куча таксистов объединилась, выпустили фейковые симки и стали заказывать друг у друга, получая бонусы. Накрутили сами себе кучу денег. Агрегатор увидел, что adoption в городе стал хороший (как казалось по метрикам) и отменил бонусы водителям. А как не стало бонусов, все таксисты ушли на другой агрегатор.

Телефонные конференции
Вы наверное сталкивались с телефонными конференциями, когда все звонят на один номер и разговаривают. Есть полностью бесплатные сервисы телефонных конференций, но как они зарабатывали в прошлом?

Оказывается в Америке был специальный закон, который давал бонусы телефонным компаниям в малонаселенных областях. Ну допустим есть телефонная компания в какой-нибудь глуши, где живет всего 15 человек. Этой невыгодно предоставлять сервисы в этой области, потому что там мало звонков. Но при этом федеральное правительство не хочет, чтобы телефонная компания ушла оттуда.

Поэтому придумали бонусы — если крупная телефонная компания звонит на телефонные сети маленькой компании “в глушь”, то большая компания платит небольшие деньги маленькой компании

Дельцы в этих небольших телефонных компаниях почесали голову и подумали: “смотрите, ребята, мы получаем немного денег каждый раз, когда на наши телефонные номера кто-то звонит. А как мы можем сделать, чтобы на наши сети звонили еще больше? А давайте организуем бесплатный сервис для телеконференций! Большая куча людей будет звонить на наш бесплатный номер, а мы будем получать за это субсидии!”

KPI в компаниях
KPIs в компаниях тоже могут привести к проблемам, особенно если они явно связаны с деньгами.

Если крупная компания начинает предлагать бонусы или продвижения только за внерение новых штук, то все стремятся делать только новое. Никто не хочет поддерживать старое. Старые существующие продукты постепенно становятся не очень классными и со временем могут умереть.

Другой пример – это когда в компанию с недостаточным технологическим уровнем приходит эффективный суперменеджер и начинает работать над продуктивностью. Например начинает брать штрафы за найденные баги в продукте. Или платить бонусы за количество решенных проблем.

Если вы когда-нибудь с этим сталкивались или слышали про это, то вы знаете, к каким уродливым последствиям это приводит. Если платятся бонусы только за решенные проблемы, за решенные баги, то все хотят решать только легкие штуки. А сложные вещи, решение которых занимает недели, никто решать не хочет. Соответственно продукт начинает портиться.

Маркетинговые метрики и надоедливые штуки
Люди так устроены, что они оптимизируют то, что проще измерить. То, что измерить сложно, оптимизируется реже или совсем не оптимизируется.

Если что-то просто измерить и только оно и оптимизируется, то в продукте может происходит локальная оптимизация, оптимизация на на краткосрочные последствия, без учета долговременных эффектов.

Например компания принимает решение слать макретинговые пуш-сообщения в мобильных приложениях. Так как очень просто измерить переход от пуш-нотификации в приложение, то легко видно как они влиют на engagement. Это приводит к росту таких сообщений — больше сообщений, больше заходов!

А вот измерить долгосрочные последствия таких сообщений сложно и мало кто это делает. Сложно измерить отношение людей к избыточной коммуникации. Как это повлияет на восприятие всей компании, сколько людей отключит пуши вовсе и вы потеряете этот канал коммуникаци совсем? Может эти сообщения снижают доверие ваших самых важных “корневых” пользователей к продукту, несмотря на увеличение MAU продукта. И долговременно это даст негативный сложноотменяемый эффект.

Другая похожая штука — попапы на сайтах. Мало есть людей, которые радуются попапам на сайтах: “О, меня спросили, не хочу ли я подписаться на рассылку — класс!”. Но поскольку попапы прыгают сразу в лицо, то на них кто-то кликает, кто-то подписывается. Есть конверсии. Как это влияет долговременно (помимо конверсии здесь и сейчас) — мало кто измеряет.

Доверие к новостям
Такая же история с медиа и нарративами, вызывающие яркие эмоции. Медиа хотят клики, а лучше всего это сделать материалами, которые вызывают яркие эмоции, даже если эти материалы не дают пользы или просто неверны.

Это приносит клики и просмотры здесь и сейчас, но долговременно подрывает доверие к медиа. Возникает кризис доверия к новостям.

Примеров таких вокруг очень много. Если задумаетесь, то найдёте вокруг кучу вещей, которые оптимизированны на краткосрочный результат.

Интерпретация данных

Другая штука, где метрики могут подвести — интерпретация данных.

У вас есть данные, допустим они корректные, но эти данные можно просто не так понять.

Маньяк из Германии
Несколько десятков лет назад в Германии завелся маньяк. Маньяк был страшный, убивал несколько раз в год и мужчин и женщин по всей Германии. Казалось, что убийства ничего не связывает.

Единственное, что знали о маньяке по результатам ДНК тестов — это была женщина и ей было больше 40 лет.

Специальная группа ловила преступника 16 лет. А потом выяснилось, что ватные палочки, которыми собирают ДНК тесты, были загрязнены на фабрике. И все пробы, которые были взяты с разных мест убийств по всей Германии, на самом деле содержали одинаковую ДНК просто потому, что ватные палочки были загрязнены одним ДНК на фабрике, женщиной, которая их собирала.

У этих ребят были абсолютно правильные данные. Куча убийств по всей Германии, пробы с каждого убийства показывают одну и ту же ДНК. Но из этих правильных данных были сделаны неправильные выводы, на котрые потратили 16 лет.

Ускорение загрузки страницы
Эта история произошла в одном крупном интернет-портале много лет назад. Как-то команда решила ускорить главную страницу в два раза. Они выделили команду разработки, несколько месяцев работали и выпустили изменения. Всё стало работать в два раза быстрее.

А потом смотрят на метрики — а скорость загрузки не выросла, а наоборот — упала на 10%ю

Оказалось, что когда страница стала в два раза быстрее, ею начали пользоваться люди из стран с очень плохим интернетом. Раньше страница у них не открывалась вообще, а теперь открывается медленно, но хоть как-то. Медленно, но начала грузиться. Они начали ей пользоваться.

И среднее время загрузки увеличилось, за счет этих новых пользователей.

И если бы команда смотрела только на одну метрику, то они бы подумали, что выпущено что-то не то. Хотя изменение было наоборот — очень полезное.

Цинга и Джеймс Линд
Несколько сотен лет назад у британских моряков самой страшной болезнью была цинга. Ты отправляешься в поход и через несколько недель у тебя вся команда начинает болеть и умирать. Целые корабли вымирают. Цинга была бичом мореходства.

И был такой доктор – Джеймс Линд, который провел один из первых медицинских A/B тестов. Он взял команду моряков и разделил их на части. Кто-то ел обычную еду, кому-то давали уксус, кому-то квашенную капусту, а вот кому-то давали свежие лимоны.

Моряки, которые ели свежие лимоны, вылечились от цинги и не заболели больше. Доктор Джеймс Линд возвращался обратно в Лондон с мыслью, что он нашел решение от цинги. Он представлял, что станет знаменитым и впишет свое имя в историю медицины. В историю он себя, конечно, вписал, но немного не так, как хотел.

Когда доктор прибыл обратно в Лондон, то он решил повторить эксперимент еще раз. Линд снова взял несколько групп людей, болеющих цингой. Одним стал давать обычную еду, а вторым стал давать концентрированный сок лимона.

Неожиданно, но люди, которым он начал давать концентрированный сок лимона, не вылечились. Доктор не знал, что цингу лечит именно витамин С. А при приготовление концентрированного лимонного сока, его кипятят, разрушая в процессе витамин С.

Джеймс Линд разочаровался в своей теории и продолжил эксперименты с кровопусканием. (представляете, болеешь цингой, а тебе для лечения кровь сливают). У него ничего не получилось и со временем он забросил медицину. Лекарство от цинги открыли лет через 50.

Это пример, когда у человека были абсолютно четкие данные, но они были неправильно интерпретированы и были сделаны неправильные выводы.

Опасные A/B тесты

У A/B тестов есть флёр вещи, которая решает все проблемы и даёт все ответы. Не знаешь, что делать — запусти A/B тест. Спор с коллегой — запусти A/B тест.

Но A/B тесты – штука, которую часто понимают ошибочно. Это тема отдельной долгой беседы, просто приведу пример проблем со статистической значимостью и подсматриванием результатов.

Представим, что у нас есть две абсолютно одинаковых страницы. На одной красная кнопка, на другой зеленая. Вы решаете запустить A/B тест. Допустим, эти две страницы имеют совершенно одинаковую конверсию. Вы запускаете тест и решаете остановить его сразу, как только вы увидите получите статистическую значимость, что одна страница работает лучше другой.

Это приведёт к неожиданным результатам. Несмотря на то, что страницы полностью одинаковые, в 90% случаев (9 из 10) рано или поздно вы получите статистически значимый результат, что одна страница работает лучше.

Вы остановите тест с мыслью, что красная кнопка работает сильно лучше, чем зеленая (по какой-то странной причине). Но это будет совсем не так.

Так что даже резульат A/B теста, казалось бы — четкая математика, может означать совершенно не то, что вы думаете.

Подробнее можно прочитать в заметке “Десять тысяч A/B тестов”.

Что же делать

Хорошо, метрики могут обманывать и вводить в заблуждение — а что же делать? Несколько советов.

Помнить о возможных долговременных или неожиданных эффектах
Не забывайте об неожиданных эффектах, о законе Гудхарта и неожиданных долгосрочных последствиях.

Напоминайте себе, что метрики – это не панацея и не оракул. Это всего лишь проекция цели, а не сама цель.

Сбалансированные и скрытые метрики
Балансируйте ваши метрики. Если вы вводите новую метрику, особенно публичную, сбалансируйте ее другой метрикой, которая не даст ее оптимизировать за счёт ухудшения других частей.

Для баланса публичных метрик можно вводить и скрытые метрики, которые вы измеряете, но про которые вы никому не рассказываете.

Здравый смысл
Как это ни странно, это лучшая штука, которая помогает в подобных проблемах. Всегда можно спросить себя и других — ну вот метрики метриками, а всё ли хорошо с точки зрения здравого смысла?

Должен быть человек, у которого есть возможность и репутация сказать: “Ребята, метрики метриками, но не оптимизируем ли мы тут что-то краткосрочное? Не принесёт ли это нам проблем в будущем?”.

Я считаю, что это в том числе и задача продакт-менеджера — быть таким человеком.

Это сложно — приходить и спорить с остальными ребятами из компании. Приходит человек и говорит: “Смотрите, у меня классны цифры конверсии!”. Он в голове уже представляет, какой он молодец. И тут вы с комментарием “погодите, тут что-то удивительное, давайте копнём поглубже, всё ли ок в данных?”.

Так делать — непросто. Но если вы хотите делать классный продукт, это необходимо. У продукта должны быть люди, эксперты со здравым смыслом, которые смогут в нужное время поднять руку и сказать: “погодите, тут что-то не так, давайте разберёмся”.

Постоянное сомнение
В метриках нужно всегда сомневаться.

За свою жизнь продакт-менеджера я наблюдал две частые истории. Представим, что вы продакт-менеджер и делаете какую-то классную фичу. Вы ее выпускаете и наичнаете A/B тест, который показывает, что ваша любимая фича плохо работает. Что происходит потом? Подавляющее большинство продакт-менеджеров начнёт разбираться, что не так в этом A/B тесте. Может быть мы как-то неправильно людей сегментируем? Может быть мы как-то неправильно считаем? Тест подвергается сомнению.

Но если A/B тест показывает, что любимая фича работает отлично, продакт-менеджер так не делает. Он или она говорят: “Ура, цифры подтвердили мой выбор, все отлично!” Никто не начинает анализировать успешный A/B тест на возможные ошибки.

Так уж мы устроены, что мы редко подвергаем сомнению то, что нам нравится. Но если вы хотите, чтобы метрики вас защищали, исследуйте их глубже.

Есть такой эмпирический закон, что если вдруг метрики или KPI показали какой-то результат, который вас удивил, или вы получилиинсайт, который вы не ожидали, скорее всего, то велик шанс, что проблема в данных или интерпретации данных.

Три завершающие мысли

Резюмирую весь рассказ тремя мыслями.

— Метрики очень важны. Мы от них никогда и никуда не уйдем. Они в вашей жизни были, есть и будут.

— Метриками, как и любым инструментом, можно себе что-нибудь сломать. Если у вас есть дрель, то ею можно сверлить дырки. Но также можно просверлить себе палец или голову. Метрики более опасный инструмент, чем они кажутся.

— Истории помогают запомнить главный смысл. Запомните любую из историй, которую вы тут прочитали. Смешную, трагическую, интересную. И в следующий раз, когда вы столкнетесь с какими-то метриками, будете ставить KPI или анализировать данные — вспомните эту историю. И напомните себе, что метрикам и KPI нужно больше внимания, чтобы они не выстрелили вам в ногу