Пищу парсер на Python 2.7, используя BeautifulSoup 4. Возникла трудность.
Извлек я все элементы со страницы.
for p in allPosts:
postIMG = p.find_all('img')
В итоге получилось:
Как обратится к тексту? Можно как-то через точку? postIMG.alt ? Или как лучше?
Как красивее всего извлечь урл картинки?
Ответ
find_all возвращает список объектов класса bs4.element.Tag и к аттрибутам элемента можно обратиться через словарь attrs
for p in allPosts:
postIMG = p.find_all('img')
print postIMG[0].attrs['alt']
print postIMG[0].attrs['src']
Если картинка в посте одна, то удобнее использовать метод find, вместо find_all
for p in allPosts:
postIMG = p.find('img')
print postIMG.attrs['alt']
print postIMG.attrs['src']
Комментариев нет:
Отправить комментарий