Наука о данных — таблица регрессии: R-Squared


R - в квадрате

R-квадрат и скорректированный R-квадрат описывает, насколько хорошо модель линейной регрессии соответствует точкам данных:

Таблица регрессии — статистика коэффициентов

Значение R-Squared всегда находится в диапазоне от 0 до 1 (от 0% до 100%).

  • Высокое значение R-квадрата означает, что многие точки данных близки к линии функции линейной регрессии.
  • Низкое значение R-квадрата означает, что линия функции линейной регрессии плохо соответствует данным.

Наглядный пример низкого значения R-квадрат (0,00)

Наша модель регрессии показывает нулевое значение R-квадрата, что означает, что линия функции линейной регрессии плохо соответствует данным.

Это можно визуализировать, когда мы строим функцию линейной регрессии через точки данных Average_Pulse и Calorie_Burnage.

Низкий R - квадратное значение (0,00)

Наглядный пример высокого значения R в квадрате (0,79)

Однако, если мы построим график Duration и Calorie_Burnage , R-квадрат увеличится. Здесь мы видим, что точки данных близки к линии функции линейной регрессии:

Низкий R - квадратное значение (0,00)

Вот код на Python:

Пример

import pandas as pd
import matplotlib.pyplot as plt
from scipy import stats

full_health_data = pd.read_csv("data.csv", header=0, sep=",")

x = full_health_data["Duration"]
y = full_health_data ["Calorie_Burnage"]

slope, intercept, r, p, std_err = stats.linregress(x, y)

def myfunc(x):
 return slope * x + intercept

mymodel = list(map(myfunc, x))

print(mymodel)

plt.scatter(x, y)
plt.plot(x, mymodel)
plt.ylim(ymin=0, ymax=2000)
plt.xlim(xmin=0, xmax=200)
plt.xlabel("Duration")
plt.ylabel ("Calorie_Burnage")

plt.show()

Резюме - Прогнозирование сжигания калорий с помощью Average_Pulse

Как мы можем обобщить функцию линейной регрессии с помощью Average_Pulse в качестве независимой переменной?

  • Коэффициент 0,3296, что означает, что Average_Pulse очень мало влияет на Calorie_Burnage.
  • Высокое значение P (0,824), что означает, что мы не можем установить взаимосвязь между Average_Pulse и Calorie_Burnage.
  • Значение R-Squared равно 0, что означает, что линия функции линейной регрессии плохо соответствует данным.