Наука о данных — дисперсия статистики
Дисперсия
Дисперсия — это еще одно число, указывающее, насколько разбросаны значения.
На самом деле, если вы возьмете квадратный корень из дисперсии, вы получите стандартное отклонение. Или наоборот, если вы умножите стандартное отклонение само на себя, вы получите дисперсию!
Сначала мы будем использовать набор данных с 10 наблюдениями, чтобы привести пример того, как мы можем рассчитать дисперсию:
Продолжительность | Средний_пульс | Max_Pulse | Calorie_Burnage | Часы_Работы | Часы_Сна |
---|---|---|---|---|---|
30 | 80 | 120 | 240 | 10 | 7 |
30 | 85 | 120 | 250 | 10 | 7 |
45 | 90 | 130 | 260 | 8 | 7 |
45 | 95 | 130 | 270 | 8 | 7 |
45 | 100 | 140 | 280 | 0 | 7 |
60 | 105 | 140 | 290 | 7 | 8 |
60 | 110 | 145 | 300 | 7 | 8 |
60 | 115 | 145 | 310 | 8 | 8 |
75 | 120 | 150 | 320 | 0 | 8 |
75 | 125 | 150 | 330 | 8 | 8 |
Дисперсия часто обозначается символом Sigma Square: σ^2
Шаг 1 для расчета дисперсии: найдите среднее значение
Мы хотим найти дисперсию Average_Pulse.
1. Найдите среднее значение:
(80+85+90+95+100+105+110+115+120+125) / 10 = 102.5
Среднее значение 102,5.
Шаг 2: Для каждого значения — найдите отличие от среднего
2. Найдите отличие от среднего для каждого значения:
80 - 102.5 = -22.5
85 - 102.5 = -17.5
90 - 102.5 = -12.5
95 - 102.5 =
-7.5
100 - 102.5 = -2.5
105 - 102.5 = 2.5
110 - 102.5 = 7.5
115 -
102.5 = 12.5
120 - 102.5 = 17.5
125 - 102.5 = 22.5
Шаг 3: Для каждой разницы — найдите квадратное значение
3. Найдите квадратное значение для каждой разности:
(-22.5)^2 = 506.25
(-17.5)^2 = 306.25
(-12.5)^2 = 156.25
(-7.5)^2 =
56.25
(-2.5)^2 = 6.25
2.5^2 = 6.25
7.5^2 = 56.25
12.5^2 = 156.25
17.5^2 = 306.25
22.5^2 = 506.25
Примечание. Мы должны возвести значения в квадрат, чтобы получить общий спред.
Шаг 4: Дисперсия — это среднее число этих квадратов значений.
4. Суммируйте квадраты значений и найдите среднее значение:
(506.25 + 306.25 + 156.25 + 56.25 + 6.25 + 6.25 + 56.25 + 156.25 + 306.25 +
506.25) / 10 = 206.25
Дисперсия составляет 206,25.
Используйте Python, чтобы найти дисперсию health_data
Мы можем использовать var()
функцию из Numpy, чтобы найти дисперсию (помните, что мы сейчас используем первый набор данных с 10 наблюдениями):
Пример
import numpy as np
var = np.var(health_data)
print(var)
Выход:
Используйте Python, чтобы найти дисперсию полного набора данных
Здесь мы вычисляем дисперсию для каждого столбца для полного набора данных:
Пример
import numpy as np
var_full = np.var(full_health_data)
print(var_full)
Выход: