Наука о данных — таблица регрессии: R-Squared
R - в квадрате
R-квадрат и скорректированный R-квадрат описывает, насколько хорошо модель линейной регрессии соответствует точкам данных:
Значение R-Squared всегда находится в диапазоне от 0 до 1 (от 0% до 100%).
- Высокое значение R-квадрата означает, что многие точки данных близки к линии функции линейной регрессии.
- Низкое значение R-квадрата означает, что линия функции линейной регрессии плохо соответствует данным.
Наглядный пример низкого значения R-квадрат (0,00)
Наша модель регрессии показывает нулевое значение R-квадрата, что означает, что линия функции линейной регрессии плохо соответствует данным.
Это можно визуализировать, когда мы строим функцию линейной регрессии через точки данных Average_Pulse и Calorie_Burnage.
Наглядный пример высокого значения R в квадрате (0,79)
Однако, если мы построим график Duration и Calorie_Burnage , R-квадрат увеличится. Здесь мы видим, что точки данных близки к линии функции линейной регрессии:
Вот код на Python:
Пример
import pandas as pd
import matplotlib.pyplot as plt
from scipy
import stats
full_health_data = pd.read_csv("data.csv", header=0, sep=",")
x = full_health_data["Duration"]
y =
full_health_data ["Calorie_Burnage"]
slope, intercept, r, p, std_err =
stats.linregress(x, y)
def myfunc(x):
return slope * x + intercept
mymodel = list(map(myfunc, x))
print(mymodel)
plt.scatter(x,
y)
plt.plot(x, mymodel)
plt.ylim(ymin=0, ymax=2000)
plt.xlim(xmin=0,
xmax=200)
plt.xlabel("Duration")
plt.ylabel ("Calorie_Burnage")
plt.show()
Резюме - Прогнозирование сжигания калорий с помощью Average_Pulse
Как мы можем обобщить функцию линейной регрессии с помощью Average_Pulse в качестве независимой переменной?
- Коэффициент 0,3296, что означает, что Average_Pulse очень мало влияет на Calorie_Burnage.
- Высокое значение P (0,824), что означает, что мы не можем установить взаимосвязь между Average_Pulse и Calorie_Burnage.
- Значение R-Squared равно 0, что означает, что линия функции линейной регрессии плохо соответствует данным.