Внезапно, примитив

Jan 24, 2010 22:16

Чё-то я забыл, есть ли возможность в iconv декодировать замаскированные юникодные символы *ML в нормальные (те, которые &#XXXX;). "Мировой разум" сходу не дал ответ на вопрос.

Отделался по-быстрому скриптом на python'е:

import re
digre=re.compile('&#(\d\d\d\d);', re.U)
x=open("coolfilename").read()
sp=re.subn(digre, lambda y: unichr(int(y.group(1))).encode('utf-8'), x)[0]
open("cooloutput","w").write(sp)

links -dump file.html конечно конвертирует, только вот форматирование полностью портит.

P.S. Пора возвращать документацию в систему :)

programming, python, howto

Previous post Next post
Up