Преобразование «ёлочек»

Nov 24, 2011 17:41

Пытался преобразовать текст на UTF-8: хотел привести отсутствующую в КОИ-8 пунктуацию к виду, пригодному для HTML:
use HTML::Entities;
...
my $fixed = encode_entities( $raw, "\x{460}-\x{2E2E}" );

Работало странно: тире преобразовывалось в —, а кавычки-ёлочки - нет. Причина оказалась простой - кавычки-ёлочки в юникоде находятся совсем не там, ( Read more... )

unicode, windows, программизм, keyboard, perl

Leave a comment

Comments 3

vazhnov November 25 2011, 17:45:00 UTC
Почему бы везде не использовать уникод?

Reply

Re: Юникод shoorick November 25 2011, 18:37:07 UTC
Потому что на некоторые сайты настолько древние, что переводить их на
юникод весьма напряжно. Поэтому на время создания новой, юникодной
версии, приходится изобретать костыли.

Reply


kohb November 29 2011, 02:51:16 UTC
ну, «ёлочки» - оригинально французские, и попали в 819 страницу, она же latin1, она же 8859-1, и даже m$ не посмела их затереть в своей western-1252, а, поскольку 8859-1 стала базовой для всех юникодов, они остались в ней в перво.
немецким „лапкам“ повезло меньше - они не попали даже в первое расширение ASCII (U+0080-U+07FF), оставшись с прочим редкоиспользуемым хламом - U+201E и U+201C.

Reply


Leave a comment

Up