Наука о данных — таблица регрессии: P-значение


«Статистика части коэффициентов» в таблице регрессии

Таблица регрессии — статистика коэффициентов

Теперь мы хотим проверить, оказывают ли коэффициенты функции линейной регрессии значительное влияние на зависимую переменную (Calorie_Burnage).

Это означает, что мы хотим доказать, что существует связь между Average_Pulse и Calorie_Burnage, используя статистические тесты.

Есть четыре компонента, которые объясняют статистику коэффициентов:

  • std err означает стандартную ошибку
  • t - «значение t» коэффициентов
  • Р>|т| называется "P-значение"
  •  [0,025 0,975] представляет собой доверительный интервал коэффициентов

В этом модуле мы сосредоточимся на понимании «P-значения».


P-значение

P-значение — это статистическое число, позволяющее сделать вывод о наличии связи между Average_Pulse и Calorie_Burnage.

Проверяем, равно ли истинное значение коэффициента нулю (нет связи). Статистический тест для этого называется проверкой гипотез.

  • Низкое значение P (<0,05) означает, что коэффициент, вероятно, не равен нулю.
  • Высокое значение P (> 0,05) означает, что мы не можем заключить, что независимая переменная влияет на зависимую переменную (здесь: если Average_Pulse влияет на Calorie_Burnage).
  • Высокое значение P также называют незначительным значением P.

Проверка гипотезы

Проверка гипотез — это статистическая процедура, позволяющая проверить, верны ли ваши результаты.

В нашем примере мы проверяем, равен ли истинный коэффициент Average_Pulse и точка пересечения нулю.

Проверка гипотезы состоит из двух утверждений. Нулевая гипотеза и альтернативная гипотеза.

  • Нулевая гипотеза может быть кратко записана как H0
  • Альтернативную гипотезу можно кратко записать как HA

Математически написано:

H0: Average_Pulse = 0
HA: Average_Pulse ≠ 0
H0: Intercept = 0
HA: Intercept ≠ 0

Знак ≠ означает «не равно»


Проверка гипотез и P-значение

Нулевая гипотеза может быть либо отвергнута, либо нет.

Если мы отклоняем нулевую гипотезу, мы заключаем, что существует связь между Average_Pulse и Calorie_Burnage. Для этого вывода используется P-значение.

Общий порог P-значения составляет 0,05.

Примечание. Значение P, равное 0,05, означает, что в 5% случаев мы ложно отвергнем нулевую гипотезу. Это означает, что мы принимаем, что в 5% случаев мы могли ложно заключить отношения.

Если P-значение ниже 0,05, мы можем отклонить нулевую гипотезу и сделать вывод о наличии связи между переменными.

Однако P-значение Average_Pulse равно 0,824. Таким образом, мы не можем установить связь между Average_Pulse и Calorie_Burnage.

Это означает, что с вероятностью 82,4% истинный коэффициент Average_Pulse равен нулю.

Перехват используется для настройки способности функции регрессии предсказывать более точно. Поэтому интерпретировать P-значение точки пересечения не принято.