Страницы

Поиск по вопросам

среда, 5 февраля 2020 г.

Как лучше парсить html-страницы?

#регулярные_выражения #html #парсер #php


Какой парсер выбрать и так далее.
Сама пользовалась для своих нужд Simple_Html_Dom. Но беда в том, что если не для
мини нужд он нужен, то плох, так как с ним страницы грузятся до ужасов долго    


Ответы

Ответ 1



Для небольших задач можно использовать парсинг посредством регулярных выражений. Основной плюс: высокая скорость работы, а минус, это порой сложность составления.

Ответ 2



Можно закачать страницу в DomDocument и парсить как XML, но порой структура сайта не всегда отвечает требованиям XML, так что могут возникнуть проблемы, но большинство сайтов таким способом парсятся. И я, как и @Deonis, бы порекомендовал phpQuery

Ответ 3



Регулярки если нужно распарить не слишком много контента. Очень медленные. Есть готовые парсеры на пхп, но они еще медленнее работают (субъективно).

Ответ 4



Если структура сайта удобная, то пользуюсь nokogiri, если не получается - регулярками.

Комментариев нет:

Отправить комментарий