Pandas — анализ фреймов данных


Просмотр данных

Одним из наиболее часто используемых методов для получения быстрого обзора DataFrame является head()метод.

Метод head()возвращает заголовки и указанное количество строк, начиная сверху.

Пример

Получите краткий обзор, распечатав первые 10 строк DataFrame:

import pandas as pd

df = pd.read_csv('data.csv')

print(df.head(10))

В наших примерах мы будем использовать файл CSV с именем data.csv.

Загрузите data.csv или откройте data.csv в браузере.

Примечание: если количество строк не указано, head()метод вернет первые 5 строк.

Пример

Распечатайте первые 5 строк DataFrame:

import pandas as pd

df = pd.read_csv('data.csv')

print(df.head())

Существует также tail()метод просмотра последних строк DataFrame.

Метод tail()возвращает заголовки и указанное количество строк, начиная снизу.

Пример

Распечатайте последние 5 строк DataFrame:

print(df.tail()) 

w3schools CERTIFIED . 2021

Получите сертификат!

Завершите модули Pandas, выполните упражнения, сдайте экзамен, и вы получите сертификат w3schools!

ЗАРЕГИСТРИРОВАТЬСЯ НА 10 $

Информация о данных

Объект DataFrames имеет метод с именем info(), который дает вам больше информации о наборе данных.

Пример

Распечатать информацию о данных:

print(df.info()) 

Результат

  <class 'pandas.core.frame.DataFrame'>
  RangeIndex: 169 entries, 0 to 168
  Data columns (total 4 columns):
   #   Column    Non-Null Count  Dtype  
  ---  ------    --------------  -----  
   0   Duration  169 non-null    int64  
   1   Pulse     169 non-null    int64  
   2   Maxpulse  169 non-null    int64  
   3   Calories  164 non-null    float64
  dtypes: float64(1), int64(3)
  memory usage: 5.4 KB
  None
    

Объяснение результата

Результат говорит нам, что есть 169 строк и 4 столбца:

  RangeIndex: 169 entries, 0 to 168
  Data columns (total 4 columns):

И имя каждого столбца с типом данных:

   #   Column    Non-Null Count  Dtype  
  ---  ------    --------------  -----  
   0   Duration  169 non-null    int64  
   1   Pulse     169 non-null    int64  
   2   Maxpulse  169 non-null    int64  
   3   Calories  164 non-null    float64

Нулевые значения

Этот info()метод также сообщает нам, сколько ненулевых значений присутствует в каждом столбце, и в нашем наборе данных кажется, что в столбце «Калории» имеется 164 из 169 ненулевых значений.

Это означает, что по какой-то причине в столбце «Калории» есть 5 строк без значения.

Пустые значения или значения Null могут быть плохими при анализе данных, и вам следует подумать об удалении строк с пустыми значениями. Это шаг к тому, что называется очисткой данных , и вы узнаете об этом больше в следующих главах.