Наука о данных — что такое данные?


Что такое данные?

Данные — это набор информации.

Одной из целей науки о данных является структурирование данных, что делает их интерпретируемыми и удобными для работы.

Данные можно разделить на две группы:

  • Структурированные данные
  • Неструктурированные данные

Неструктурированные данные

Неструктурированные данные не организованы. Мы должны систематизировать данные для целей анализа.

Неструктурированные данные

Неструктурированные данные


Структурированные данные

Структурированные данные организованы и с ними легче работать.

Структурированные данные


Как структурировать данные?

Мы можем использовать массив или таблицу базы данных для структурирования или представления данных.

Пример массива:

[80, 85, 90, 95, 100, 105, 110, 115, 120, 125]

В следующем примере показано, как создать массив в Python:

Пример

Array = [80, 85, 90, 95, 100, 105, 110, 115, 120, 125]
print(Array)

В Data Science часто приходится работать с очень большими наборами данных.

В этом уроке мы постараемся максимально упростить понимание концепций науки о данных. Поэтому мы будем работать с небольшим набором данных, которые легко интерпретировать.