Пробую использовать CsQuery для парсинга html.
Есть в html документе набор дивов с классом some_class. Внутри каждого дива текст на русском.
Пробую парсить дивы следующим образом:
//...
CQ cq = CQ.Create(html, Encoding.UTF8);
List
В результате в test текст представлен в 16-тиричном коде.
Покопался в IDomObject, не нашёл способа задать кодировку.Также не понятно почему кодировка слетает, если задал её при создании объекта cq.
Сталкивался ли кто-нибудь с подобной ситуацией?
Ответ
Это баг в версии 1.3.4 CsQuery. В сообщении об ошибке упоминается метод обхода проблемы: использовать .Cq().Text() вместо .InnerText
Проблема устранена в версии 1.3.5 beta, так что если не боитесь бета-версии, переходите на неё.
Комментариев нет:
Отправить комментарий