Страницы

Поиск по вопросам

суббота, 21 марта 2020 г.

Как извлечь “скрытую” информацию из тегов с помощью Python и BeautifulSoup?

#python #парсер


Хочу сделать парсинг страниц Яндекс.Дзена, чтобы вытащить оттуда теги каждой публикации
и колчество прочитываний. Делаю это на Python с помощью BeautifulSoup.
При извлечение HTML кода страницы кодом

import urllib.request

from bs4 import BeautifulSoup

url = 'https://zen.yandex.ru/media/filmmaking/esli-vam-nravitsia-liucifer-posmotrite-i-eti-13-serialov-5d0f25adb34feb00af5df506'
response = urllib.request.urlopen(url)
page = BeautifulSoup(response, features="lxml")
print(page)


блоки, где находятся теги 



"теги"
и счетчик просмотров 13 тыс. дочитываний оказываются пустыми. Позволяет ли яндекс.дзен вообще достать эту информацию? Теми ли средствами я пользуюсь? В парсинге новичок)


Ответы

Ответ 1



Проблема в том, что BeautifulSoup не исполняет JS код, будь то отрисовывающий страницу или получающий данные из БД. Поэтому теги не заполнены, и данных внутри вы не видите. Используйте для этих целей Selenium, там точно все должно быть хорошо, так как запускается инстанс браузера, который точно отрендерит вам страничку и вернет полностью готовый html.

Комментариев нет:

Отправить комментарий