Панды — корреляции данных


Поиск отношений

Отличным аспектом модуля Pandas является corr()метод.

Метод corr()вычисляет взаимосвязь между каждым столбцом в вашем наборе данных.

В примерах на этой странице используется файл CSV с именем «data.csv».

Скачать data.csv . или открыть data.csv

Пример

Покажите взаимосвязь между столбцами:

df.corr()

Результат

            Duration     Pulse  Maxpulse  Calories
  Duration  1.000000 -0.155408  0.009403  0.922721
  Pulse    -0.155408  1.000000  0.786535  0.025120
  Maxpulse  0.009403  0.786535  1.000000  0.203814
  Calories  0.922721  0.025120  0.203814  1.000000

Примечание . Метод corr()игнорирует «нечисловые» столбцы.

Объяснение результата

Результатом corr()метода является таблица с большим количеством чисел, которые представляют, насколько хорошо связаны отношения между двумя столбцами.

Число варьируется от -1 до 1.

1 означает, что существует отношение 1 к 1 (идеальная корреляция), и для этого набора данных каждый раз, когда значение в первом столбце увеличивалось, другое значение также увеличивалось.

0,9 также является хорошим соотношением, и если вы увеличите одно значение, то, вероятно, увеличится и другое.

-0,9 будет таким же хорошим соотношением, как и 0,9, но если вы увеличите одно значение, другое, вероятно, уменьшится.

0,2 означает НЕ хорошие отношения, а это означает, что если одно значение повышается, это не означает, что другое будет расти.

Что такое хорошая корреляция? Это зависит от использования, но я думаю, можно с уверенностью сказать, что вы должны иметь по крайней мере 0.6(или -0.6), чтобы назвать это хорошей корреляцией.

Идеальная корреляция:

Мы видим, что «Длительность» и «Длительность» получили число 1.000000, что имеет смысл, каждый столбец всегда имеет идеальную связь с самим собой.

Хорошая корреляция:

«Продолжительность» и «Калории» имеют 0.922721корреляцию, которая является очень хорошей корреляцией, и мы можем предсказать, что чем дольше вы тренируетесь, тем больше калорий вы сжигаете, и наоборот: если вы сжигаете много калорий, вы наверное долго тренировался.

Плохая корреляция:

«Длительность» и «Макспульс» имеют 0.009403корреляцию, которая является очень плохой корреляцией, а это означает, что мы не можем предсказать максимальный пульс, просто взглянув на продолжительность тренировки, и наоборот.


Проверьте себя с помощью упражнений

Упражнение:

Вставьте правильный синтаксис для поиска отношений между столбцами в DataFrame.

df.()


w3schools CERTIFIED . 2021

Получите сертификат!

Завершите модули Pandas, выполните упражнения, сдайте экзамен, и вы получите сертификат w3schools!

ЗАРЕГИСТРИРОВАТЬСЯ НА 10 $