Меня интересуют алгоритмы поиска дубликатов файлов: среди множества каталогов нужно найти и запомнить все файлы с одинаковым содержимым. В связи с большими объемами данных для обработки требуется хороший алгоритм, советы и рекомендации насчет возможной оптимизации его работы и т.п.
Я не прошу предоставить мне кусок готового кода или каким-либо иным способом полностью реализованное задание, буду благодарен за любую полученную ценную информацию относительно данного вопроса.
Ответ
Вот решение в-лоб: Обходим все каталоги рекурсивно, сохраняем (path, filesize) в таблицу базы данных. Сортируем собранную таблицу по filesize, делаем выборку по всем записям где filesize неуникально. Для каждой пачки файлов с одинаковым filesize вычисляем хеш, проверяем на равенство. ??? PROFIT
Комментариев нет:
Отправить комментарий