Панды — корреляции данных
Поиск отношений
Отличным аспектом модуля Pandas является corr()
метод.
Метод corr()
вычисляет взаимосвязь между каждым столбцом в вашем наборе данных.
В примерах на этой странице используется файл CSV с именем «data.csv».
Скачать data.csv . или открыть data.csv
Пример
Покажите взаимосвязь между столбцами:
df.corr()
Результат
Duration Pulse Maxpulse Calories Duration 1.000000 -0.155408 0.009403 0.922721 Pulse -0.155408 1.000000 0.786535 0.025120 Maxpulse 0.009403 0.786535 1.000000 0.203814 Calories 0.922721 0.025120 0.203814 1.000000
Примечание
. Метод corr()
игнорирует «нечисловые» столбцы.
Объяснение результата
Результатом corr()
метода является таблица с большим количеством чисел, которые представляют, насколько хорошо связаны отношения между двумя столбцами.
Число варьируется от -1 до 1.
1 означает, что существует отношение 1 к 1 (идеальная корреляция), и для этого набора данных каждый раз, когда значение в первом столбце увеличивалось, другое значение также увеличивалось.
0,9 также является хорошим соотношением, и если вы увеличите одно значение, то, вероятно, увеличится и другое.
-0,9 будет таким же хорошим соотношением, как и 0,9, но если вы увеличите одно значение, другое, вероятно, уменьшится.
0,2 означает НЕ хорошие отношения, а это означает, что если одно значение повышается, это не означает, что другое будет расти.
Что такое хорошая корреляция?
Это зависит от использования, но я думаю, можно с уверенностью сказать, что вы должны иметь по крайней мере 0.6
(или -0.6
), чтобы назвать это хорошей корреляцией.
Идеальная корреляция:
Мы видим, что «Длительность» и «Длительность» получили число 1.000000
, что имеет смысл, каждый столбец всегда имеет идеальную связь с самим собой.
Хорошая корреляция:
«Продолжительность» и «Калории» имеют 0.922721
корреляцию, которая является очень хорошей корреляцией, и мы можем предсказать, что чем дольше вы тренируетесь, тем больше калорий вы сжигаете, и наоборот: если вы сжигаете много калорий, вы наверное долго тренировался.
Плохая корреляция:
«Длительность» и «Макспульс» имеют 0.009403
корреляцию, которая является очень плохой корреляцией, а это означает, что мы не можем предсказать максимальный пульс, просто взглянув на продолжительность тренировки, и наоборот.
Получите сертификат!
ЗАРЕГИСТРИРОВАТЬСЯ НА 10 $