Июнь 2019 — Заметка №14

Есть вещи вокруг, которые очень контринтуитивны. Cамый известный пример, это наверное Парадокс Монти Холла — не буду про него рассказывать, каждая книжка о статистике его упоминает. Если не слышали — поищите, очень поражает. Я до сих пор, понимая что к чему, не могу этот парадокс полностью осознать.

Еще одна похожая штука: закон Бе́нфорда.

Допустим вы взяли толстый глянцевый журнал. Вот если в этом журнале взять все-все числа, которые встречались во всех статьях, какая будет вероятность что первая цифра у этих чисел это например 1 или 2?

Первое, что приходит в голову, что так как цифр 10 и первая не может быть нулем, то вероятность ⅑. Это не так. Вероятность единицы — ~30%, двойки — ~17.6%, тройки — ~12.5% и вероятности потом постепенно убывают для каждой цифры. Минимальное значение у девятки — 4.6%. Это очень неожиданный результат.

Это правило справедливо для массивов чисел, основанных из данных из реальной жизни. Длина рек (причем не важно в чем измеряная), цены на акции, ваши расходы, смертность и так далее — для всего этого закон будет работать.

Эта штука работает для очень многих данных (особенно если темп роста величины пропорционален её текущему значению), но не для всех. Не сработает, если:

Интересно то, что эту штуку используют для нахождения мошенничества с финансами. Числа в финансовых отчетах как правило соотвествуют закону Бенфорда, поэтому если не соответствуют — скорее всего их подгоняли вручную с мыслью “надо сделать их похожими на случайные числа”, что как раз приводит к обратной ситуации.