Есть известная фраза “Correlation does not imply causation”. Корреляция это не причинно-следственная связь.
Если сильно упрощать, то корреляция двух параметров (А и Б) означает их взаимосвязь. То есть если А больше, то и Б становится больше (или меньше, если корреляция отрицательная). Если повышается шанс события А, то повышается и шанс cобытия Б.
При этом это не означает, что А это причина Б, как бы это не хотелось бы заявить.
Вот например забавный сайт с примерами странных корреляций. Внизу можно нажать на Next и полистать страницы — там много примеров или же построить самому.
Количество фильмов с Николасом Кейджом коррелирует с количеством людей, утонувших в бассейнах. Но нельзя сказать, что его фильмы заставляют людей топиться или же наоборот, утопления вдохновляют Кейджа сниматься.
Простое правило тут такое: надо задать себе три вопроса. Если А и Б коррелируют, то:
- А может быть, что не из А следует Б, а наоборот — из Б → А?
Если в больнице видят, что местный кот сидит на пациентах, которые вскоре умирают, это не означает, что у нас тут кот-демон-убийца. Возможно умирающий пациент имеет особенности (высокая температура?), который вызывает внимание кота. - Есть ли какая-то штука C из которой может следовать и А и Б одновременно?
Продажи мороженого отрицательно коррелируют с количеством переломов. Больше продают мороженого — меньше переломов. Это не означает, что надо срочно наладить производство пломбира или вафельные стаканчики повышают крепость костей. Есть общая причина С: погода. Когда зима, то люди меньше покупают мороженое и чаще ломают себе что-нибудь из-за гололеда. - Может ли это быть случайностью?
В мире миллионы различных данных. Какие-то комбинации данных будут коррелировать на протяжении долгого времени просто из-за случайности.