coding: Как извлечь “скрытую” информацию из тегов с помощью Python и BeautifulSoup?

суббота, 21 марта 2020 г.

Как извлечь “скрытую” информацию из тегов с помощью Python и BeautifulSoup?

#python #парсер


Хочу сделать парсинг страниц Яндекс.Дзена, чтобы вытащить оттуда теги каждой публикации
и колчество прочитываний. Делаю это на Python с помощью BeautifulSoup.
При извлечение HTML кода страницы кодом

import urllib.request

from bs4 import BeautifulSoup

url = 'https://zen.yandex.ru/media/filmmaking/esli-vam-nravitsia-liucifer-posmotrite-i-eti-13-serialov-5d0f25adb34feb00af5df506'
response = urllib.request.urlopen(url)
page = BeautifulSoup(response, features="lxml")
print(page)


блоки, где находятся теги 



 "теги" 




и счетчик просмотров 



13 тыс. дочитываний




оказываются пустыми. 

Позволяет ли яндекс.дзен вообще достать эту информацию? Теми ли средствами я пользуюсь?
В парсинге новичок)

Ответы

Ответ 1


Проблема в том, что BeautifulSoup не исполняет JS код, будь то отрисовывающий страницу
или получающий данные из БД. Поэтому теги не заполнены, и данных внутри вы не видите.

Используйте для этих целей Selenium, там точно все должно быть хорошо, так как запускается
инстанс браузера, который точно отрендерит вам страничку и вернет полностью готовый html.

coding

Страницы

Поиск по вопросам

суббота, 21 марта 2020 г.

Как извлечь “скрытую” информацию из тегов с помощью Python и BeautifulSoup?

Ответы

Ответ 1

Комментариев нет:

Отправить комментарий

Страницы

Поиск по вопросам

суббота, 21 марта 2020 г.

Как извлечь “скрытую” информацию из тегов с помощью Python и BeautifulSoup?

Ответы

Ответ 1

Комментариев нет:

Отправить комментарий

суббота, 21 марта 2020 г.