Продолжаю читать очередную книгу про вероятности. Там описана занятная ошибка в трактовании данных. Описываю с небольшими изменениями для простоты.
Допустим в городе произошло преступление. Свидетели рассказали, что преступники:
- Были в желтой машине
- Женщина и мужчина, у женщины волосы собраны в хвост, женщина блондинка
- У мужчины борода
- В машине была собака
Спустя пару дней в городе ловят пару — они в желтой машине, женщина блондинка и с “хвостом”, мужчина бородат, в машине также сидит собака.
Обвинение говорит, что этих примет достаточно.
- Вероятность желтой машины: ⅒
- Вероятность, что у женщины светлые волосы: ⅓
- Вероятность “хвоста”: ⅒
- Вероятность бороды у мужчины: ¼
- Вероятность собаки в машине: ¹⁄₅₀₀
То есть вероятность, что все это совпадет вместе: ¹⁄₆₀₀ ₀₀₀ или 0.00016667% (считаем, что события более-менее независимы, поэтому вероятности перемножаем). Казалось бы, очень низкая вероятность — очевидно, это те самые ребята, ведь вероятность того, что все просто совпало так мала.
Но на самом деле эта вероятность означает другое. Она означает, что если мы выберем случайную пару — вероятность, что она будет совпадать с описанным — ¹⁄₆₀₀ ₀₀₀ Если в городе живет 3 миллиона человек, то таких пар будет где-то 5 (плюс-минус). Значит вероятность, что это именно та самая пара — ¹⁄₅ или 20% То есть уже не так убедительно. Очевидно, что подобное совпадение сильный сигнал, что это они — но это не может быть единственной уликой.