Назрел такой вопрос. Только начал изучать питон, используя библиотеку BeautifulSoup задался вопросом. Есть HTML код, к примеру:
Мне нужно выдернуть все ссылки на большие изображения, которые находятся в атрибуте bigimg=
Написал такую строчку:
itemImages = soup.find("div", "scrollableDiv").findAll("img")
но как выдернуть именно ВСЕ значения атрибута bigimg не представляю.
Может быть кто-то сталкивался с подобной проблемой, буду признателен.
Ответ
К сожалению не знаю библиотеку beautiful soap , но знаю как решить вашу проблему регекспами. допустим весь хтмль код у вас содержится в переменной html import re big_imgs = re.findall(r'bigimg="(.*?)"', html) в big_imgs у вас массив со всеми значениями внутри bigimg. например если бы приведены вами хтмль код засунуть в переменную html >>> big_imgs = re.findall(r'bigimg="(.*?)"', html) >>> big_imgs ['/uploads/201103/source-img/MY-520-Nebulizer-Atomized-Inhaler-G-44318.jpg', '/u ploads/201103/source-img/MY-520-Nebulizer-Atomized-Inhaler1298912536529-P-44318. jpg']
Комментариев нет:
Отправить комментарий