Кластеры данных
- Кластеры — это наборы похожих данных
- Кластеризация — это тип обучения без учителя.
- Коэффициент корреляции описывает силу связи.
Кластеры
Кластеры — это наборы данных, основанные на сходстве.
Точки данных, сгруппированные вместе на графике, часто можно разделить на кластеры.
На графике ниже мы можем выделить 3 разных кластера:
Идентификация кластеров
Кластеры могут содержать много ценной информации, но кластеры бывают самых разных форм, так как же мы можем их распознать?
Два основных метода:
- Использование визуализации
- Использование алгоритма кластеризации
Кластеризация
Кластеризация — это тип обучения без учителя .
Кластеризация пытается:
- Соберите похожие данные в группы
- Собирайте разнородные данные в других группах
Методы кластеризации
- Метод плотности
- Иерархический метод
- Метод разделения
- Сеточный метод
Метод плотности считает, что точки в плотных регионах имеют больше сходств и различий, чем точки в менее плотных регионах. Плотностный метод имеет хорошую точность. Он также имеет возможность объединять кластеры.
Двумя распространенными алгоритмами являются DBSCAN и OPTICS.
Иерархический метод формирует кластеры в виде древовидной структуры. Новые кластеры формируются с использованием ранее сформированных кластеров.
Двумя распространенными алгоритмами являются CURE и BIRCH.
Метод на основе сетки формулирует данные в конечное число ячеек, которые образуют структуру, подобную сетке.
Два распространенных алгоритма: CLIQUE и STING.
Метод секционирования разделяет объекты на k кластеров, и каждый раздел образует один кластер.
Одним из распространенных алгоритмов является CLARANS.
Коэффициент корреляции
Коэффициент корреляции (r) описывает силу и направление линейной зависимости и переменных x/y на диаграмме рассеяния.
Значение r всегда находится в диапазоне от -1 до +1:
-1,00 | Идеальный спуск | Отрицательная линейная зависимость. |
-0,70 | Сильный спуск | Отрицательная линейная зависимость. |
-0,50 | Умеренный спуск | Отрицательная линейная зависимость. |
-0,30 | Слабый спуск | Отрицательная линейная зависимость. |
0 | Нет линейной зависимости. | |
+0,30 | Слабый подъем | Положительная линейная зависимость. |
+0,50 | Умеренный подъем | Положительная линейная зависимость. |
+0,70 | Сильный подъем | Положительная линейная зависимость. |
+1,00 | Идеальный подъем | Положительная линейная зависимость. |
Идеальный подъем +1,00 :
Идеальный спуск -1.00 :
Сильный подъем +0,61 :
Нет отношений :