Машинное обучение
Машинное обучение заставляет компьютер учиться, изучая данные и статистику.
Машинное обучение — это шаг в сторону искусственного интеллекта (ИИ).
Машинное обучение — это программа, которая анализирует данные и учится предсказывать результат.
Когда начать?
В этом уроке мы вернемся к математике и изучим статистику, а также способы расчета важных чисел на основе наборов данных.
Мы также узнаем, как использовать различные модули Python, чтобы получить нужные нам ответы.
И мы научимся создавать функции, способные предсказывать результат на основе того, что мы узнали.
Набор данных
В сознании компьютера набор данных — это любой набор данных. Это может быть что угодно, от массива до полной базы данных.
Пример массива:
[99,86,87,88,111,86,103,87,94,78,77,85,86]
Пример базы данных:
Карнаме | Цвет | Возраст | Скорость | Автопасс |
БМВ | красный | 5 | 99 | Д |
Вольво | чернить | 7 | 86 | Д |
Фольксваген | серый | 8 | 87 | Н |
Фольксваген | белый | 7 | 88 | Д |
Форд | белый | 2 | 111 | Д |
Фольксваген | белый | 17 | 86 | Д |
Тесла | красный | 2 | 103 | Д |
БМВ | чернить | 9 | 87 | Д |
Вольво | серый | 4 | 94 | Н |
Форд | белый | 11 | 78 | Н |
Тойота | серый | 12 | 77 | Н |
Фольксваген | белый | 9 | 85 | Н |
Тойота | синий | 6 | 86 | Д |
Глядя на массив, мы можем предположить, что среднее значение, вероятно, составляет около 80 или 90, и мы также можем определить самое высокое и самое низкое значение, но что еще мы можем сделать?
И, взглянув на базу данных, мы можем увидеть, что самый популярный цвет — белый, а самому старому автомобилю — 17 лет, но что, если бы мы могли предсказать, есть ли у автомобиля AutoPass, просто взглянув на другие значения?
Вот для чего нужно машинное обучение! Анализ данных и прогнозирование результата!
В машинном обучении принято работать с очень большими наборами данных. В этом уроке мы постараемся максимально упростить понимание различных концепций машинного обучения и будем работать с небольшими простыми для понимания наборами данных.
Типы данных
Для анализа данных важно знать, с какими типами данных мы имеем дело.
Мы можем разделить типы данных на три основные категории:
- Числовой
- Категориальный
- Порядковый номер
Числовые данные — это числа, и их можно разделить на две числовые категории:
- Дискретные данные
— числа, которые ограничены целыми числами. Пример: Количество проезжающих мимо автомобилей. - Непрерывные данные
— числа, которые имеют бесконечное значение. Пример: цена товара или размер товара.
Категориальные данные — это значения, которые нельзя сравнивать друг с другом. Пример: значение цвета или любые значения да/нет.
Порядковые данные похожи на категориальные данные, но их можно сравнивать друг с другом. Пример: школьные оценки, где A лучше, чем B, и так далее.
Зная тип данных вашего источника данных, вы сможете узнать, какую технику использовать при их анализе.
Вы узнаете больше о статистике и анализе данных в следующих главах.