Страницы

Поиск по вопросам

понедельник, 8 июля 2019 г.

Кластерный анализ методом k-means

Здравствуйте. Имеется две случайная величины. Задача попробовать класстеризовать данные с помощью метода k-means. Разбивал на три кластера данные. Результаты меня удивили.

Почему часть данных, принадлежащая 3 кластеру (синее точки) окружена точками из 2 кластера (зеленные точки)? На картинке это можно увидеть в левом нижнем углу если по-хорошему присмотреться.


Ответ

Это нормальная ситуация. То есть не совсем нормальная, но данный метод кластеризации иногда приводит к таким странным результатам. Дело в том, что расстояния считаются от центроидов, а не от соседних точек. Подробнее об этом и других нюансах можно почитать по ссылке http://dungba.org/the-strange-effect-of-k-means/

Комментариев нет:

Отправить комментарий