Страницы

Поиск по вопросам

вторник, 9 октября 2018 г.

Подскажите алгоритм кластеризации

Проблема в следующем. Есть БД с, примерно, 50млрд unsigned bigint строками. Для дальнейшей работы с ними их нужно кластеризовать по условию заданного расстояния Хэмминга (т.е. заранее количество кластеров неизвестно). И, естественно, никакой оперативки не хватит, что обработать этот объем за раз. Соответственно, алгоритм должен быть инкрементальным, с поступательным добавлением новых данных. Собственно, вопрос: есть ли такой алгоритм в природе? Желательно, реализованный на каком-нибудь распространенном языке (потому что чисто математику я не пойму). На вскикду, загуглить не удалось :/ Задача не гипотетическая, проект коммерческий :) Заранее благодарю.


Ответ

Так если это расстояние между числами будет равно 1, то весь набор данных в один кластер запихать? Или другая ситуация - сейчас у нас две записи, расстояние между ними равно 2. Распихали их по двум кластерам. Завтра появилась запись, у которой расстояние с первой и второй записью равно 1 - куда ее пихать? Или кластеры надо объединять? Первое легко может быть, если все числа идут по порядку. А из этого вытекает уже и второе.

Комментариев нет:

Отправить комментарий