Допустим, взяли исходный текст, три абзаца. В его копии убрали полностью последнее предложение, поменяли адрес ссылки где-то в тексте, заменили пару предлогов, и заменили пару слов на синонимы. Каков алгоритм, чтобы определить "эти тексты сходны на 65%. Скорее всего, общий первоисточник"? Есть ли что-то вроде вэйвлет анализа для текстов?
Ответ
В биоинформатике подобные вопросы - определение схожести двух разных последовательностей нуклеиновых кислот или протеинов (читай - текстов) - составляют основную проблему. Решается она с помощью разных алгоритмов выравнивания. В вашем случае можно применить метод глобального выравнивания - самого простого из них. Подробнее о нем читай по указанной ссылке. Если будет непонятно, порекомендую литературу.
Комментариев нет:
Отправить комментарий