#python #парсер
Хочу сделать парсинг страниц Яндекс.Дзена, чтобы вытащить оттуда теги каждой публикации и колчество прочитываний. Делаю это на Python с помощью BeautifulSoup. При извлечение HTML кода страницы кодом import urllib.request from bs4 import BeautifulSoup url = 'https://zen.yandex.ru/media/filmmaking/esli-vam-nravitsia-liucifer-posmotrite-i-eti-13-serialov-5d0f25adb34feb00af5df506' response = urllib.request.urlopen(url) page = BeautifulSoup(response, features="lxml") print(page) блоки, где находятся теги 13 тыс. дочитываний оказываются пустыми. Позволяет ли яндекс.дзен вообще достать эту информацию? Теми ли средствами я пользуюсь? В парсинге новичок)и счетчик просмотров
Ответы
Ответ 1
Проблема в том, что BeautifulSoup не исполняет JS код, будь то отрисовывающий страницу или получающий данные из БД. Поэтому теги не заполнены, и данных внутри вы не видите. Используйте для этих целей Selenium, там точно все должно быть хорошо, так как запускается инстанс браузера, который точно отрендерит вам страничку и вернет полностью готовый html.
Комментариев нет:
Отправить комментарий