Сентябрь 2019 — Заметка №4

Теорема Байеса и байесианское мышление простыми словами

Если вы начнете интересоваться темой принятия решений, то наверняка вы столкнетесь с теоремой Байеса из теории вероятностей и понятием “байесианское мышление”. Люди пишут, что эта теорема кардинально изменила то, как они думают.

При этом во всех статьях про теорему Байеса будет примерно одно и то же: формулы, примеры с медицинскими тестами и ложноположительными результатами, примеры расчета вероятностей. Возникает вопрос (у меня он в свое время тоже возник) — окей, это все очень интересно, но как это влияет на мое мышление, в чем заключается то самое кардинальное изменение? Когда мы принимаем решения, мы не вспоминаем формулы.

Кажется я нашел для себя ответ и могу сформулировать что же такое “думать по байесиански”. Как эта известная математическая формула транслируется в образ мышления.

Эти подходы не гарантируют счастье в вашей жизни и хорошие решения. Используйте на свой страх и риск. Мне это помогает — вам может все испортить.

I. Любое убеждение имеет определенную вероятность правдивости.

Мы не можем утверждать, что что-то 100% истинно или ложно. Мы практически всегда принимаем решения и делаем выводы исходя из неполных данных — нашей неполной модели мира. Наши убеждения это результат опыта и наблюдений, в которых есть определенная доля случайности. Поэтому мы не можем быть на 100% уверены в правдивости своих убеждений.

Полезно думать о своих убеждениях как о чем-то, что верно с какой-то вероятностью. Это вероятность может быть большая (“я убежден с очень-очень большой вероятностью, что гомеопатия не работает”) или небольшая (“я думаю, что мой друг А. на обижен, но не уверен точно — процентов на 60%”) или очень небольшая (“я думаю шанс того, что инопланетяне посещают Землю — 0.0001%”).

Такой образ мышления напоминает, что убеждения не являются чем-то конечным и незыблемым. Они могут изменяться. Он также напоминает, что мы всегда принимаем решения и строим убеждения исходя из неполных данных, поэтому они могут быть не верны.

То есть нет абсолютных убеждений. Не надо думать в терминах “я верю” или “я не верю”. Есть убеждения, у них есть вероятности правдивости. То есть “я думаю это более вероятно” или “я думаю это менее вероятно”.

II. Вероятность правдивости убеждения менятся после свидетельств

Вероятности наших убеждений не статичны. Они меняются под воздействием свидетельств. Любой наблюдаемый факт это свидетельство. Оно сдвигает вероятность правдивости убеждения вверх или вниз.

То есть надо брать свидетельство, которое вы наблюдаете и решать, насколько сильно оно меняет ваши убеждения (про это в деталях ниже).

Статичная вера в что-то это не добродетель. Добродетель это постоянное обновление модели мира для ее бОльшей эффективности. Изменение вероятности убеждения (вверх или вниз), иотказ от убеждения или приобретение нового это достижение. Что-то, что надо праздновать .

Три важных штуки про свидетельства.

Не надо игнорировать неудобные свидетельства

Некоторые убеждения приятны и делают нам хорошо: например говорят, какие мы молодцы, рассказывают про то как хороша наша идентичность (не то, что у других) или мы к ним просто привыкли.

Мы любим приписать большую значимость свидетельству, которое поддерживает наше существующее убеждение и отмахиваемся от других. Этого невозможно избежать, но можно замечать и пытаться исправлять.

Свидетельства, которые таким убеждениям противоречат, не надо игнорировать. Их надо замечать, признавать, обдумывать, праздновать.

Свидетельства работают только в одну сторону

Свидетельство не может одновременно понижать и повышать вероятность убеждения в зависимости от нашего желания. Если свидетельство повышает вероятность, то обратное свидетельство (“анти-свидетельство”) должно понижать эту вероятность.

Тут лучше показать на примере. Допустим в деревне ищут ведьму или ведьмака. В деревне знают — ведьмы злые и всегда желают всем зла. Чуваки с факелами говорят: N. — ведьма, она ходит и всем всегда улыбается, никогда ни на кого не подняла голос. Разве нормальные люди так могут? Это специально — маскировка.

Это ошибка (поиск ведьм тоже ошибка, я сейчас больше про логическую ошибку).

Если в деревне решили, что свидетельство “человек злой” повышает вероятность того, что этот человек — ведьма, то обратное свидетельство “человек добрый” обязано эту вероятность понижать. Значит очень добрый человек с меньшей вероятностью будет ведьмой. Жителям деревни надо или это признать или пересмотреть свою гипотезу про “все ведьмы злые и всегда желают зла”.

Если вы видите, что свидетельство и его противоположность одновременно используются для убеждения в чем-то одном — это ошибка.

(Тут важно еще помнить, что отсутствие свидетельства не равно свидетельству отсутствия. Отсуствие свидетельств, что человек не ведьма, не равно свидетельству, что человек — ведьма, это просто отдельное свидетельство)

Сильные и слабые свидетельства

Свидетельства разные, поэтому важно не сколько их количество, сколько их сила. Какой-то факт сильный и двигает вашу оценку правдивости чего-то очень сильно. Какой-то факт слабый и практически никак не влияет.

Результат одного медицинского эксперимента перевешивает личные мнения 1000 разных людей. Мнение ребят из деревни “та семья из крайнего дома странная, наверняка сатанисты” сильно слабее ситуации, когда вы видите как эта семья приносит в жертву черного козла.

Надо оценивать силу свидетельства (про это ниже) и активно искать сильные свидетельства, если вам надо принять какое-то решение.

III. Как обновлять свою веру: формула Байеса

Теорема Байеса решает задачу “как же мне обновить свою веру (то есть вероятность), если я обнаружил свидетельство”.

Теорема Байеса и немного математики

Cейчас будет немного формул, если они неинтересны — сразу перепрыгивайте к “Формула Байеса простыми словами”.

Самый распространенный вид формулы вот такой:

$$P(A \mid B) =\frac{P(B \mid A) \times P(A)}{P(B)}$$

То есть “Вероятность события А, если свидетельство-событие B произошло” = (“Вероятность события B, если свидетельство-событие A произошло” × “Вероятность события А ” ) / “Вероятность события-свидетельства B само по себе”

В таком виде формула плохо применима в реальной жизни. Мало кто будет в уме расчитывать все эти вероятности.

Поэтому лучше смотреть на эту формулу в виде шансов (odds form). Для начала определим, что такое шанс и чем он отличается от вероятности события. Шанс события это

$$O(A)=O(A:¬A) = \frac{P(A)}{1 - P(A)}$$

То есть это отношение вероятности события к вероятности, что оно не произойдет. То есть это не сама вероятность, а как бы насколько эта вероятность “сильнее” альтернатив.

Например вероятность выкинуть единицу или двойку на кубике: 2:4 (2 к 4). А вот шансы выкинуть только единицу это 1:5 (1 к 5).

В шансовой форме формула Байеса выглядит вот так:

$$O(A \mid B)=O(A) \times \frac{P(B \mid A)}{P(B \mid ¬A)}$$

Вот эту формулу мы и будем использовать, она гораздо проще прикидывается в уме.

Формула Байеса простыми словами

Простыми словами эту формулу можно описать так.

“Шансы события А, если свидетельство-событие B произошло” = “Шансы события A” × ( “Вероятность события-свидетельства B в мире где А верно” ) / “Вероятность события-свидетельства B в мире, где A неверно” )

Обновленные шансы события (та же вероятность) зависят от двух вещей: начальные шансы события и некое отношение (его еще называют отношением правдоподобия, likelihood ratio). Оба множителя влияют на конечный ответ. Рассмотрим каждый поподробнее.

Начальная априорная вероятность

Для того, чтобы определить вероятность события после свидетельства надо иметь некую начальную вероятность.

Но вся гениальность теоремы Байеса в том, что это начальная (ее еще называют априорной) вероятность не должна быть ничем обоснована. Абсолютно нормально, если это грубая прикидка, взята из головы наугад.

Про разные техники прикидки вероятностей, можно почитать например вот в этой заметке.

Отношение правдоподобия: два мира

Второй множитель — отношение правдоподобия. Он как раз определяет силу свидетельства. Если оно сильное, то оно больше сдвигает вероятность вверх или вниз. Слабое — практически не сдвигает.

Это отношение (то есть сила-слабость) расчитывается вот так:

“Вероятность события-свидетельства B в мире где теория-А верна” ) / “Вероятность события-свидетельства B в мире, где теория-A неверна”

Для прикидки этой штуки не нужно расчитывать никакие формулы в уме. Для этого надо представить два мира: в одном ваша теория-убеждение A верно, во втором — неверно. Во сколько раз гораздо вероятней наблюдать факт-свидетельство в мире где теория верна, чем в мире где она не верна? Вот это ощущение “во сколько” — во много, средне, совсем чуть-чуть — и есть отношение правдоподобия и определяет силу факта-свидетельства.

Пример: вы очнулись в незнакомом месте. За окном идет дождь. Насколько это сильное свидетельство того, что мы не в пустыне?

Представим два мира. В одном нам похитили и привезли в пустыню. В другом нас похитили и привезли не в пустыню. В каком из этих миров вероятней будет идти дождь и насколько? Очевидно в мире где пустыни нет, дождь более вероятней и намного. Поэтому это достаточно сильнее свидетельство того, что мы не в пустыне.

Второй пример: коллега целый день хмурился при разговоре с вами и вы не понимаете почему. Обычно не так, поэтому вы решаете, что коллега на вас обижен. Так ли это? Представим два мира, в одном коллега на вас обижен за что-то, но вы не знаете за что. Во втором мире коллега на вас не обижен. В каком мире коллега будет чаще/вероятней хмуриться при разговоре? В том, где он обижен, но при этом эта вероятность будет не сильно больше, чем в мире, где он не обижен. Ведь люди могут хмурится и иметь плохое настроение по разным причинам. Поэтому хоть это свидетельство увеличивает шанс, что коллега обижен, но увеличивает совсем на чуть-чуть, потому что само свидетельство слабое.

Обновление шансов/вероятностей сводится к прикидке двух штук и их умножению:

Варианты событий — примеры

Есть четыре самых распространенных ситуации.

Рассмотрим их подробно с примерами.

Небольшая априорная вероятность — слабое свидельство
Друг засиделся у вас допоздна. Он уезжает домой на машине и обещает написать СМС, как приедет. Прошло три часа — СМС нет. Стоит ли вам волноваться, что друг попал в аварию?

Рассмотрим два мира: в одном друг попал в аварию, а в другом — нет. В первом мире вероятность не написать СМС выше, но совсем не намного — друг устал и мог забыть (тут правда зависит от друга).

Начальная вероятность аварии тоже низкая (аварии встречаются редко). Все вместе дает понять, что факт “не было СМС” практически не увеличивает вероятность, что случилась авария, поэтому волноваться не надо.

Небольшая априорная вероятность — сильное свидельство
Друг засиделся у вас допоздна. Он уезжает домой на машине и обещает написать СМС, как приедет. Прошло три часа — СМС нет. Вы ждете утра — СМС нет. Вы звоните несколько раз ему на телефон — он не отвечает. Стоит ли вам волноваться, что друг попал в аварию?

Рассмотрим два мира: в одном друг попал в аварию, а в другом — нет. В первом мире вероятность не написать СМС/не ответить выше и достаточно сильно выше. Люди обычно отвечают на телефонные звонки.

Начальная вероятность аварии низкая (аварии встречаются редко). Свидетельство уже достаточно сильное — но насколько? Допустим шансы попасть в аварию 110000 Вероятность не ответить на телефон на следующий день после встречи, если случилась авария в 10 раз выше чем в мире где аварии нет. Получается шансы, что случилась авария 110000 × 10 = 11000 Да, стало сильно выше, но не ситуации “а-а-а точно все плохо”. Возможно друг просто спит.

А вот если есть еще дополнительные свидетельства, например друг не пошел на следующий день на работу, то вероятность этого допустим в 500 раз больше в мире, где авария случилась. Получается 11000 × 500 = 12 — очень серьезные шансы, что это произошло.

Сильные свидетельства заметно меняют начальную вероятность, если их сила свидетельства соответствует начальным шансам. Насколько небольшие априорные шансы, настолько большое должно быть отношение правдоподобия, чтобы серьезно повлиять. Тут удобно сравнивать просто даже порядок чисел — если начальные шансы это один из нескольких десятков тысяч, то для серьезного влияния свидетельство должно быть более вероятно в мире, где теория верна, раз в 100 как минимум.

Если же начальные шансы большие, например 1 из 50, то даже свидетельство вероятное раза в 2-3 уже сильно влияет.

Про это даже есть фраза “экстраординальные теории требуют экстраординальных доказательств”.

Большая априорная вероятность — слабое свидельство
Большая априорная вероятность — сильное свидельство
Тут уже все просто. Cлабое свидетельство не меняет сильно большую начальную априорную вероятность.

Если друг уехал поздно, а вам приснился плохой сон про аварию — это очень слабое свидетельство и сильные априорные шансы “с другом все хорошо” не меняются.

Если у нас есть большая начальная вероятность и сильное свидетельство — вы смотрите на то, в какую сторону это свидетельство. Оно или подкрепляет еще больше начальную теорию или же заметно уменьшает его вероятность (согласно своей силе)

IV. Заключение

Весь подход сводится к 6 пунктам:

Вот и все. Если хочется больше формул и математики, то есть хорошая статья на русском и на английском.