Есть вещи вокруг, которые очень контринтуитивны. Cамый известный пример, это наверное Парадокс Монти Холла — не буду про него рассказывать, каждая книжка о статистике его упоминает. Если не слышали — поищите, очень поражает. Я до сих пор, понимая что к чему, не могу этот парадокс полностью осознать.
Еще одна похожая штука: закон Бе́нфорда.
Допустим вы взяли толстый глянцевый журнал. Вот если в этом журнале взять все-все числа, которые встречались во всех статьях, какая будет вероятность что первая цифра у этих чисел это например 1 или 2?
Первое, что приходит в голову, что так как цифр 10 и первая не может быть нулем, то вероятность ⅑. Это не так. Вероятность единицы — ~30%, двойки — ~17.6%, тройки — ~12.5% и вероятности потом постепенно убывают для каждой цифры. Минимальное значение у девятки — 4.6%. Это очень неожиданный результат.
Это правило справедливо для массивов чисел, основанных из данных из реальной жизни. Длина рек (причем не важно в чем измеряная), цены на акции, ваши расходы, смертность и так далее — для всего этого закон будет работать.
Эта штука работает для очень многих данных (особенно если темп роста величины пропорционален её текущему значению), но не для всех. Не сработает, если:
- У данных есть ограничения сверху или снизу
- Данных мало или же они покрывают только один-два порядка (например IQ)
- Числа назначаются искусственно: например индексы или номера заказов или маркетинговые цены в магазине ($9.99)
- В данных нет нормального распределения Но если перемешать много таких разных данных, то результат уже будет подчинятся этому закону.
Интересно то, что эту штуку используют для нахождения мошенничества с финансами. Числа в финансовых отчетах как правило соотвествуют закону Бенфорда, поэтому если не соответствуют — скорее всего их подгоняли вручную с мыслью “надо сделать их похожими на случайные числа”, что как раз приводит к обратной ситуации.