Введение в науку о данных
Наука о данных — это сочетание нескольких дисциплин, использующих статистику, анализ данных и машинное обучение для анализа данных и извлечения из них знаний и идей.
Что такое наука о данных?
Наука о данных занимается сбором данных, анализом и принятием решений.
Наука о данных — это поиск закономерностей в данных посредством анализа и прогнозирование будущего.
Используя науку о данных, компании могут:
- Лучшие решения (должны ли мы выбрать A или B)
- Предиктивный анализ (что будет дальше?)
- Обнаружение закономерностей (найти закономерность или, возможно, скрытую информацию в данных)
Где нужна наука о данных?
Наука о данных сегодня используется во многих отраслях в мире, например, в банковском деле, консалтинге, здравоохранении и производстве.
Примеры того, где нужна наука о данных:
- Для планирования маршрута: чтобы найти лучшие маршруты для доставки
- Чтобы предвидеть задержки рейса/судна/поезда и т. д. (с помощью прогнозного анализа)
- Для создания рекламных предложений
- Найти наиболее подходящее время для доставки товара
- Чтобы спрогнозировать доход компании на следующие годы
- Проанализировать пользу для здоровья от тренировок
- Предсказать, кто победит на выборах
Науку о данных можно применять практически во всех сферах бизнеса, где данные доступны. Примеры:
- Потребительские товары
- Фондовые рынки
- Промышленность
- Политика
- Логистические компании
- Электронная коммерция
Как работает специалист по данным?
Data Scientist требует опыта в нескольких областях:
- Машинное обучение
- Статистика
- Программирование (Python или R)
- Математика
- Базы данных
Data Scientist должен находить закономерности в данных. Прежде чем он/она сможет найти шаблоны, он/она должен организовать данные в стандартном формате.
Вот как работает Data Scientist:
- Задавайте правильные вопросы - Чтобы понять бизнес-проблему.
- Исследуйте и собирайте данные — из базы данных, веб-журналов, отзывов клиентов и т. д.
- Извлечь данные — преобразовать данные в стандартный формат.
- Очистить данные — удалить ошибочные значения из данных.
- Найти и заменить отсутствующие значения . Проверьте отсутствующие значения и замените их подходящим значением (например, средним значением).
- Нормализация данных . Масштабируйте значения в практическом диапазоне (например, 140 см меньше, чем 1,8 м. Однако число 140 больше, чем 1,8, поэтому масштабирование важно).
- Анализируйте данные, находите закономерности и делайте прогнозы на будущее .
- Представьте результат — представьте результат с полезной информацией так, чтобы «компания» могла его понять.
Когда начать?
В этом руководстве мы начнем с представления того, что такое данные и как данные можно анализировать.
Вы узнаете, как использовать статистику и математические функции для прогнозирования.