Страницы

Поиск по вопросам

четверг, 18 октября 2018 г.

Алгоритм поиска дубликатов файлов

Меня интересуют алгоритмы поиска дубликатов файлов: среди множества каталогов нужно найти и запомнить все файлы с одинаковым содержимым. В связи с большими объемами данных для обработки требуется хороший алгоритм, советы и рекомендации насчет возможной оптимизации его работы и т.п.
Я не прошу предоставить мне кусок готового кода или каким-либо иным способом полностью реализованное задание, буду благодарен за любую полученную ценную информацию относительно данного вопроса.


Ответ

Вот решение в-лоб: Обходим все каталоги рекурсивно, сохраняем (path, filesize) в таблицу базы данных. Сортируем собранную таблицу по filesize, делаем выборку по всем записям где filesize неуникально. Для каждой пачки файлов с одинаковым filesize вычисляем хеш, проверяем на равенство. ??? PROFIT

Комментариев нет:

Отправить комментарий