Страницы

Поиск по вопросам

среда, 3 октября 2018 г.

Как определить степень схожести двух текстов?

Допустим, взяли исходный текст, три абзаца. В его копии убрали полностью последнее предложение, поменяли адрес ссылки где-то в тексте, заменили пару предлогов, и заменили пару слов на синонимы. Каков алгоритм, чтобы определить "эти тексты сходны на 65%. Скорее всего, общий первоисточник"? Есть ли что-то вроде вэйвлет анализа для текстов?


Ответ

В биоинформатике подобные вопросы - определение схожести двух разных последовательностей нуклеиновых кислот или протеинов (читай - текстов) - составляют основную проблему. Решается она с помощью разных алгоритмов выравнивания. В вашем случае можно применить метод глобального выравнивания - самого простого из них. Подробнее о нем читай по указанной ссылке. Если будет непонятно, порекомендую литературу.

Комментариев нет:

Отправить комментарий