Oct 07, 2009 14:39
Доброго времени суток всем,
Сам я с XML малознаком, так уж получилось.
Интересует вот какой вопрос - нужно распарсить HTML и повыдергивать из него некоторые данные.
При попытке сделать это через dom4j падают exception которые жалуются на Meta и nbsp (как я понял html который я ему даю не совсем корректно сформирован).
Внимание, уважаемые знатоки: чем парсить HTML чтобы с ним можно было работать посредством xpath без дополнительных плясок с бубном?
Предвосхищая вопросы "а почему бы не сформировать html правильно" отвечаю - приходит он ко мне извне.
UPD: Всем спасибо, использовал TagSoup. Дальше DOM и XPath
xml