Введение в науку о данных


Наука о данных — это сочетание нескольких дисциплин, использующих статистику, анализ данных и машинное обучение для анализа данных и извлечения из них знаний и идей.


Что такое наука о данных?

Наука о данных занимается сбором данных, анализом и принятием решений.

Наука о данных — это поиск закономерностей в данных посредством анализа и прогнозирование будущего.

Используя науку о данных, компании могут:

  • Лучшие решения (должны ли мы выбрать A или B)
  • Предиктивный анализ (что будет дальше?)
  • Обнаружение закономерностей (найти закономерность или, возможно, скрытую информацию в данных)

Где нужна наука о данных?

Наука о данных сегодня используется во многих отраслях в мире, например, в банковском деле, консалтинге, здравоохранении и производстве.

Примеры того, где нужна наука о данных:

  • Для планирования маршрута: чтобы найти лучшие маршруты для доставки
  • Чтобы предвидеть задержки рейса/судна/поезда и т. д. (с помощью прогнозного анализа)
  • Для создания рекламных предложений
  • Найти наиболее подходящее время для доставки товара
  • Чтобы спрогнозировать доход компании на следующие годы
  • Проанализировать пользу для здоровья от тренировок
  • Предсказать, кто победит на выборах

Науку о данных можно применять практически во всех сферах бизнеса, где данные доступны. Примеры:

  • Потребительские товары
  • Фондовые рынки
  • Промышленность
  • Политика
  • Логистические компании
  • Электронная коммерция

Как работает специалист по данным?

Data Scientist требует опыта в нескольких областях:

  • Машинное обучение
  • Статистика
  • Программирование (Python или R)
  • Математика
  • Базы данных

Data Scientist должен находить закономерности в данных. Прежде чем он/она сможет найти шаблоны, он/она должен организовать данные в стандартном формате.

Вот как работает Data Scientist:

  1. Задавайте правильные вопросы - Чтобы понять бизнес-проблему.
  2. Исследуйте и собирайте данные — из базы данных, веб-журналов, отзывов клиентов и т. д.
  3. Извлечь данные — преобразовать данные в стандартный формат.
  4. Очистить данные — удалить ошибочные значения из данных.
  5. Найти и заменить отсутствующие значения . Проверьте отсутствующие значения и замените их подходящим значением (например, средним значением).
  6. Нормализация данных . Масштабируйте значения в практическом диапазоне (например, 140 см меньше, чем 1,8 м. Однако число 140 больше, чем 1,8, поэтому масштабирование важно).
  7. Анализируйте данные, находите закономерности и делайте прогнозы на будущее .
  8. Представьте результат — представьте результат с полезной информацией так, чтобы «компания» могла его понять.

Когда начать?

В этом руководстве мы начнем с представления того, что такое данные и как данные можно анализировать.

Вы узнаете, как использовать статистику и математические функции для прогнозирования.