Машинное обучение — нормальное распределение данных
Нормальное распределение данных
В предыдущей главе мы узнали, как создать полностью случайный массив заданного размера и между двумя заданными значениями.
В этой главе мы узнаем, как создать массив, в котором значения сосредоточены вокруг заданного значения.
В теории вероятностей этот вид распределения данных известен как нормальное распределение данных или распределение данных по Гауссу в честь математика Карла Фридриха Гаусса, который придумал формулу этого распределения данных.
Пример
Типичное нормальное распределение данных:
import numpy
import matplotlib.pyplot as plt
x =
numpy.random.normal(5.0, 1.0, 100000)
plt.hist(x, 100)
plt.show()
Результат:
Примечание. График нормального распределения также известен как кривая колокола из-за характерной формы колокола.
Объяснение гистограммы
Мы используем массив из numpy.random.normal()
метода с 100 000 значений, чтобы нарисовать гистограмму со 100 барами.
Мы указываем, что среднее значение равно 5,0, а стандартное отклонение равно 1,0.
Это означает, что значения должны быть сосредоточены около 5,0 и редко дальше 1,0 от среднего значения.
И, как видно из гистограммы, большинство значений находится в диапазоне от 4,0 до 6,0 с максимумом примерно на уровне 5,0.