Наука о данных — дисперсия статистики


Дисперсия

Дисперсия — это еще одно число, указывающее, насколько разбросаны значения.

На самом деле, если вы возьмете квадратный корень из дисперсии, вы получите стандартное отклонение. Или наоборот, если вы умножите стандартное отклонение само на себя, вы получите дисперсию!

Сначала мы будем использовать набор данных с 10 наблюдениями, чтобы привести пример того, как мы можем рассчитать дисперсию:

Продолжительность Средний_пульс Max_Pulse Calorie_Burnage Часы_Работы Часы_Сна
30 80 120 240 10 7
30 85 120 250 10 7
45 90 130 260 8 7
45 95 130 270 8 7
45 100 140 280 0 7
60 105 140 290 7 8
60 110 145 300 7 8
60 115 145 310 8 8
75 120 150 320 0 8
75 125 150 330 8 8

Дисперсия часто обозначается символом Sigma Square: σ^2


Шаг 1 для расчета дисперсии: найдите среднее значение

Мы хотим найти дисперсию Average_Pulse.

1. Найдите среднее значение:

(80+85+90+95+100+105+110+115+120+125) / 10 = 102.5

Среднее значение 102,5.


Шаг 2: Для каждого значения — найдите отличие от среднего

2. Найдите отличие от среднего для каждого значения:

80 - 102.5 = -22.5
85 - 102.5 = -17.5
90 - 102.5 = -12.5
95 - 102.5 = -7.5
100 - 102.5 = -2.5
105 - 102.5 = 2.5
110 - 102.5 = 7.5
115 - 102.5 = 12.5
120 - 102.5 = 17.5
125 - 102.5 = 22.5

Шаг 3: Для каждой разницы — найдите квадратное значение

3. Найдите квадратное значение для каждой разности:

(-22.5)^2 = 506.25
(-17.5)^2 = 306.25
(-12.5)^2 = 156.25
(-7.5)^2 = 56.25
(-2.5)^2 = 6.25
2.5^2 = 6.25
7.5^2 = 56.25
12.5^2 = 156.25
17.5^2 = 306.25
22.5^2 = 506.25

Примечание. Мы должны возвести значения в квадрат, чтобы получить общий спред.



Шаг 4: Дисперсия — это среднее число этих квадратов значений.

4. Суммируйте квадраты значений и найдите среднее значение:

(506.25 + 306.25 + 156.25 + 56.25 + 6.25 + 6.25 + 56.25 + 156.25 + 306.25 + 506.25) / 10 = 206.25

Дисперсия составляет 206,25.


Используйте Python, чтобы найти дисперсию health_data

Мы можем использовать var()функцию из Numpy, чтобы найти дисперсию (помните, что мы сейчас используем первый набор данных с 10 наблюдениями):

Пример

import numpy as np

var = np.var(health_data)
print(var)

Выход:

Дисперсия

Используйте Python, чтобы найти дисперсию полного набора данных

Здесь мы вычисляем дисперсию для каждого столбца для полного набора данных:

Пример

import numpy as np

var_full = np.var(full_health_data)
print(var_full)

Выход:

Дисперсия