Страницы

Поиск по вопросам

среда, 10 октября 2018 г.

Как парсить html в java?

Нужно пропарсить вебстраницу и извлечь из нее путь к картинке. Никак не могу разобраться с классом HTML Parser. Нужен пример - не могу найти в нете.


Ответ

А что сложного то?
У них самая обыкновенная документация в JavaDoc. Но даже там можно найти почти все, что нужно. Например
Typical usage of the parser is:
Parser parser = new Parser ("http://whatever"); NodeList list = parser.parse (null); // do something with your list of nodes.
А потом еще немного посмотреть:
NodeList parse(NodeFilter filter)
NodeFilter -> вот тут
Все, по-моему, слишком просто.
Не говоря уже об этом
bin/parser http://website_url [tag_name] where tag_name is an optional tag name to be used as a filter, i.e. A - Show only the link tags extracted from the document IMG - Show only the image tags extracted from the document TITLE - Extract the title from the document NOTE: this is also the default program for the htmlparser.jar, so the above could be: java -jar lib/htmlparser.jar http://website_url [tag_name]
UPD:
public static void main(String[] args) { try { Parser parser = new Parser("http://www.alliance-bags.ru/catalog.php?tov=576"); parser.setEncoding("windows-1251");
NodeFilter atrb1 = new TagNameFilter("IMG"); NodeList nodeList = parser.parse(atrb1);
for(int i=0; i } catch (ParserException e) { e.printStackTrace(); } }

Комментариев нет:

Отправить комментарий