Вопрос по dom4j и HTML: ru

jacks_alterego in ru_java

Вопрос по dom4j и HTML

Oct 07, 2009 14:39

Доброго времени суток всем,
Сам я с XML малознаком, так уж получилось.
Интересует вот какой вопрос - нужно распарсить HTML и повыдергивать из него некоторые данные.
При попытке сделать это через dom4j падают exception которые жалуются на Meta и nbsp (как я понял html который я ему даю не совсем корректно сформирован).
Внимание, уважаемые знатоки: чем парсить HTML чтобы с ним можно было работать посредством xpath без дополнительных плясок с бубном?

Предвосхищая вопросы "а почему бы не сформировать html правильно" отвечаю - приходит он ко мне извне.

UPD: Всем спасибо, использовал TagSoup. Дальше DOM и XPath

xml