В книге Тоби Сегерана "Программируем коллективный разум" рекомендована библиотека для парсинга HTML и XML файлов - называется Beautifulsoup
Вот ссылки на эту библиотеку:
BeautifulSoupДокументация BeautifulSoupОсновным достоинством является то, что BS довольно лоялен к неправильной разметке. Эта нелояльность послужила мне препятствием к использованию библиотеки lxml при парсинге HTML. Попробуем теперь этот вариант...