Здравствуйте. Имеется две случайная величины. Задача попробовать класстеризовать данные с помощью метода k-means. Разбивал на три кластера данные. Результаты меня удивили.
Почему часть данных, принадлежащая 3 кластеру (синее точки) окружена точками из 2 кластера (зеленные точки)? На картинке это можно увидеть в левом нижнем углу если по-хорошему присмотреться.
Ответ
Это нормальная ситуация. То есть не совсем нормальная, но данный метод кластеризации иногда приводит к таким странным результатам. Дело в том, что расстояния считаются от центроидов, а не от соседних точек. Подробнее об этом и других нюансах можно почитать по ссылке http://dungba.org/the-strange-effect-of-k-means/
Комментариев нет:
Отправить комментарий