Наука о данных — статистическая корреляция против причинно-следственной связи


Корреляция не подразумевает причинно-следственной связи

Корреляция измеряет числовую связь между двумя переменными.

Высокий коэффициент корреляции (близкий к 1) не означает, что мы можем с уверенностью заключить реальную связь между двумя переменными.

Классический пример:

  • Летом продажи мороженого на пляже увеличиваются.
  • В то же время увеличивается и количество случаев утопления.

Означает ли это, что рост продаж мороженого является прямой причиной увеличения числа случаев утопления?


Пример пляжа на Python

Здесь мы создали вымышленный набор данных, чтобы вы могли попробовать:

Пример

import pandas as pd
import matplotlib.pyplot as plt

Drowning_Accident = [20,40,60,80,100,120,140,160,180,200]
Ice_Cream_Sale = [20,40,60,80,100,120,140,160,180,200]
Drowning = {"Drowning_Accident": [20,40,60,80,100,120,140,160,180,200],
"Ice_Cream_Sale": [20,40,60,80,100,120,140,160,180,200]}
Drowning = pd.DataFrame(data=Drowning)

Drowning.plot(x="Ice_Cream_Sale", y="Drowning_Accident", kind="scatter")
plt.show()

correlation_beach = Drowning.corr()
print(correlation_beach)

Вывод:

Корреляция против причинно-следственной связи

Корреляция против причинно-следственной связи - пример пляжа

Другими словами: можем ли мы использовать продажу мороженого для предсказания случаев утопления?

Ответ - Наверное, нет.

Вполне вероятно, что эти две переменные случайно коррелируют друг с другом.

Что тогда вызывает утопление?

  • Неквалифицированные пловцы
  • Волны
  • Судорога
  • Эпилепсией
  • Отсутствие надзора
  • Алкоголь (злоупотребление)
  • и Т. Д.

Перевернем рассуждения:

Означает ли низкий коэффициент корреляции (близкий к нулю), что изменение x не влияет на y?

Вернемся к вопросу:

  • Можем ли мы заключить, что Average_Pulse не влияет на Calorie_Burnage из-за низкого коэффициента корреляции?

Ответ - нет.

Существует важное различие между корреляцией и причинно-следственной связью:

  • Корреляция — это число, которое измеряет, насколько тесно связаны данные
  • Причинность – это вывод о том, что x вызывает y.

Поэтому важно критически осмыслить концепцию причинности, когда мы делаем прогнозы!