Pandas — анализ фреймов данных
Просмотр данных
Одним из наиболее часто используемых методов для получения быстрого обзора DataFrame является head()
метод.
Метод head()
возвращает заголовки и указанное количество строк, начиная сверху.
Пример
Получите краткий обзор, распечатав первые 10 строк DataFrame:
import pandas as pd
df = pd.read_csv('data.csv')
print(df.head(10))
В наших примерах мы будем использовать файл CSV с именем data.csv.
Загрузите data.csv или откройте data.csv в браузере.
Примечание: если количество строк не указано, head()
метод вернет первые 5 строк.
Пример
Распечатайте первые 5 строк DataFrame:
import pandas as pd
df = pd.read_csv('data.csv')
print(df.head())
Существует также tail()
метод просмотра
последних строк DataFrame.
Метод tail()
возвращает заголовки и указанное количество строк, начиная снизу.
Пример
Распечатайте последние 5 строк DataFrame:
print(df.tail())
Получите сертификат!
ЗАРЕГИСТРИРОВАТЬСЯ НА 10 $
Информация о данных
Объект DataFrames имеет метод с именем info()
, который дает вам больше информации о наборе данных.
Пример
Распечатать информацию о данных:
print(df.info())
Результат
<class 'pandas.core.frame.DataFrame'> RangeIndex: 169 entries, 0 to 168 Data columns (total 4 columns): # Column Non-Null Count Dtype --- ------ -------------- ----- 0 Duration 169 non-null int64 1 Pulse 169 non-null int64 2 Maxpulse 169 non-null int64 3 Calories 164 non-null float64 dtypes: float64(1), int64(3) memory usage: 5.4 KB None
Объяснение результата
Результат говорит нам, что есть 169 строк и 4 столбца:
RangeIndex: 169 entries, 0 to 168 Data columns (total 4 columns):
И имя каждого столбца с типом данных:
# Column Non-Null Count Dtype --- ------ -------------- ----- 0 Duration 169 non-null int64 1 Pulse 169 non-null int64 2 Maxpulse 169 non-null int64 3 Calories 164 non-null float64
Нулевые значения
Этот info()
метод также сообщает нам, сколько ненулевых значений присутствует в каждом столбце, и в нашем наборе данных кажется, что в столбце «Калории» имеется 164 из 169 ненулевых значений.
Это означает, что по какой-то причине в столбце «Калории» есть 5 строк без значения.
Пустые значения или значения Null могут быть плохими при анализе данных, и вам следует подумать об удалении строк с пустыми значениями. Это шаг к тому, что называется очисткой данных , и вы узнаете об этом больше в следующих главах.