Наука о данных — таблица регрессии: P-значение
«Статистика части коэффициентов» в таблице регрессии
Теперь мы хотим проверить, оказывают ли коэффициенты функции линейной регрессии значительное влияние на зависимую переменную (Calorie_Burnage).
Это означает, что мы хотим доказать, что существует связь между Average_Pulse и Calorie_Burnage, используя статистические тесты.
Есть четыре компонента, которые объясняют статистику коэффициентов:
- std err означает стандартную ошибку
- t - «значение t» коэффициентов
- Р>|т| называется "P-значение"
- [0,025 0,975] представляет собой доверительный интервал коэффициентов
В этом модуле мы сосредоточимся на понимании «P-значения».
P-значение
P-значение — это статистическое число, позволяющее сделать вывод о наличии связи между Average_Pulse и Calorie_Burnage.
Проверяем, равно ли истинное значение коэффициента нулю (нет связи). Статистический тест для этого называется проверкой гипотез.
- Низкое значение P (<0,05) означает, что коэффициент, вероятно, не равен нулю.
- Высокое значение P (> 0,05) означает, что мы не можем заключить, что независимая переменная влияет на зависимую переменную (здесь: если Average_Pulse влияет на Calorie_Burnage).
- Высокое значение P также называют незначительным значением P.
Проверка гипотезы
Проверка гипотез — это статистическая процедура, позволяющая проверить, верны ли ваши результаты.
В нашем примере мы проверяем, равен ли истинный коэффициент Average_Pulse и точка пересечения нулю.
Проверка гипотезы состоит из двух утверждений. Нулевая гипотеза и альтернативная гипотеза.
- Нулевая гипотеза может быть кратко записана как H0
- Альтернативную гипотезу можно кратко записать как HA
Математически написано:
H0: Average_Pulse = 0
HA: Average_Pulse ≠ 0
H0: Intercept =
0
HA: Intercept ≠ 0
Знак ≠ означает «не равно»
Проверка гипотез и P-значение
Нулевая гипотеза может быть либо отвергнута, либо нет.
Если мы отклоняем нулевую гипотезу, мы заключаем, что существует связь между Average_Pulse и Calorie_Burnage. Для этого вывода используется P-значение.
Общий порог P-значения составляет 0,05.
Примечание. Значение P, равное 0,05, означает, что в 5% случаев мы ложно отвергнем нулевую гипотезу. Это означает, что мы принимаем, что в 5% случаев мы могли ложно заключить отношения.
Если P-значение ниже 0,05, мы можем отклонить нулевую гипотезу и сделать вывод о наличии связи между переменными.
Однако P-значение Average_Pulse равно 0,824. Таким образом, мы не можем установить связь между Average_Pulse и Calorie_Burnage.
Это означает, что с вероятностью 82,4% истинный коэффициент Average_Pulse равен нулю.
Перехват используется для настройки способности функции регрессии предсказывать более точно. Поэтому интерпретировать P-значение точки пересечения не принято.