Страницы

Поиск по вопросам

пятница, 1 марта 2019 г.

Как получить содержимое ссылок?

Подскажите пожалуйста как получить содержимое ссылок c BeautifulSoup(html, 'lxml')? Не сами ссылки а название! есть вот такой код:
html = urllib.request.urlopen('https://kyxni.pro/katalog/') soup = BeautifulSoup(html, 'html.parser').find('div', class_='builder-posts-wrap') for i in soup.find_all('h2', class_='post-title'): print(i)
выводит ссылки:

Кухня ЭЛЕГИЯ

Кухня ДИАНА

Кухня ТЕМЗА


а я хочу получить сами названия:
Кухня ЭЛЕГИЯ Кухня ДИАНА Кухня ТЕМЗА и т.д.
Подскажите пожалуйста как это реализовать?
И как можно открыть сохранённую страницу, что бы каждый раз сайт не грузить? Такая конструкция в коде который выше не работает
html = open('kuhni.html').read()


Ответ

а я хочу получить сами названия:
for i in soup.find_all('h2', class_='post-title entry-title'): print(i.text)
Когда нужно получить текстовое содержимое, применяйте атрибут text (только не к списку, который возвращается методом find_all).
И как можно открыть сохранённую страницу, что бы каждый раз сайт не грузить? Такая конструкция в коде который выше не работает
У меня получилось так:
html = open('kuhni.html', encoding='utf8').read()
P.S. На будущее. Приводите текст ошибок.

Комментариев нет:

Отправить комментарий