Вопрос по dom4j и HTML

Oct 07, 2009 14:39

 Доброго времени суток всем,
Сам я с XML малознаком, так уж получилось.
Интересует вот какой вопрос - нужно распарсить HTML и повыдергивать из него некоторые данные.
При попытке сделать это через dom4j падают exception которые жалуются на Meta и nbsp (как я понял html который я ему даю не совсем корректно сформирован).
Внимание, уважаемые знатоки:  чем парсить HTML чтобы с ним можно было работать посредством xpath без дополнительных плясок с бубном?

Предвосхищая вопросы "а почему бы не сформировать html правильно" отвечаю - приходит он ко мне извне.

UPD: Всем спасибо, использовал TagSoup. Дальше DOM и XPath

xml

Previous post Next post
Up