Кластеры данных

Кластеры — это наборы похожих данных
Кластеризация — это тип обучения без учителя.
Коэффициент корреляции описывает силу связи.

Кластеры

Кластеры — это наборы данных, основанные на сходстве.

Точки данных, сгруппированные вместе на графике, часто можно разделить на кластеры.

На графике ниже мы можем выделить 3 разных кластера:

Идентификация кластеров

Кластеры могут содержать много ценной информации, но кластеры бывают самых разных форм, так как же мы можем их распознать?

Два основных метода:

Использование визуализации
Использование алгоритма кластеризации

Кластеризация

Кластеризация — это тип обучения без учителя .

Кластеризация пытается:

Соберите похожие данные в группы
Собирайте разнородные данные в других группах

Методы кластеризации

Метод плотности
Иерархический метод
Метод разделения
Сеточный метод

Метод плотности считает, что точки в плотных регионах имеют больше сходств и различий, чем точки в менее плотных регионах. Плотностный метод имеет хорошую точность. Он также имеет возможность объединять кластеры.
Двумя распространенными алгоритмами являются DBSCAN и OPTICS.

Иерархический метод формирует кластеры в виде древовидной структуры. Новые кластеры формируются с использованием ранее сформированных кластеров.
Двумя распространенными алгоритмами являются CURE и BIRCH.

Метод на основе сетки формулирует данные в конечное число ячеек, которые образуют структуру, подобную сетке.
Два распространенных алгоритма: CLIQUE и STING.

Метод секционирования разделяет объекты на k кластеров, и каждый раздел образует один кластер.
Одним из распространенных алгоритмов является CLARANS.

Коэффициент корреляции

Коэффициент корреляции (r) описывает силу и направление линейной зависимости и переменных x/y на диаграмме рассеяния.

Значение r всегда находится в диапазоне от -1 до +1:

-1,00	Идеальный спуск	Отрицательная линейная зависимость.
-0,70	Сильный спуск	Отрицательная линейная зависимость.
-0,50	Умеренный спуск	Отрицательная линейная зависимость.
-0,30	Слабый спуск	Отрицательная линейная зависимость.
0		Нет линейной зависимости.
+0,30	Слабый подъем	Положительная линейная зависимость.
+0,50	Умеренный подъем	Положительная линейная зависимость.
+0,70	Сильный подъем	Положительная линейная зависимость.
+1,00	Идеальный подъем	Положительная линейная зависимость.

Идеальный подъем +1,00 :

Идеальный спуск -1.00 :

Сильный подъем +0,61 :

Нет отношений :

❮ Предыдущий Следующий ❯

Искусственный интеллект

Математика

Статистика

Графика

Наука ИИ

Машинное обучение

ТензорФлоу

Пример 1

Пример 2

JS-графика

Кластеры данных