Comments | gegmopo4: О©╫О©╫О©╫О©╫О©╫О©╫

gegmopo4

О©╫О©╫О©╫О©╫О©╫О©╫

Jan 07, 2011 20:29

Офигеть! В 20-х годах XXI века всё ещё существуют проблемы с кодировкой. И не у поделки какого-нибудь Джона Пупкина из Лос-Мухосранска, а у лидера публичных сетевых сервисов, у Гугля. Пользоваться Google Groups для русскоязычных (и прочих, использующих кириллицу) пользователей невозможно (те же проблемы испытывают греки и частично немцы). Нет, ( Read more... )

их нравы, тревога, занудство, горечь, безумие, почта

Comments 5

beldmit January 7 2011, 19:10:49 UTC

У yahoo те же проблемы скорее всего. А уж в архивах письма нечитаемые, хотя при указании кодировки можно бы все привести к utf-8.

gegmopo4 January 8 2011, 05:04:45 UTC

Так привели. Два раза.

Судя по всему, у них стоит фильтр, который пытается по эвристике определить кодировку. Только вот проверка на ASCII у них оказывается успешной, а на самом деле портит текст. Очевидно, ожидается, что кодек выбросит исключение для нетранслируемых символов, -- а он просто тихо заменяет их на "�".

pasha_semionov January 8 2011, 08:59:11 UTC

Я уже давно придумал фантастическое решение. Фантастическое - это в смысле "как можно было бы сделать", а не что делать в реальных условиях. Надо в начале каждого текста указывать его кодировку по стандартной схеме (одной на всех!). Естественно, это указание должно содержать только латинские буквы, цифры и знаки препинания. Например, почему бы не взять из HTML? Там же в начале указывается . Вот этот последний кусочек и взять - charset равно чему-то (windows-1251, utf-8, ...). Оно же - из HTTP. И каждая программа, которая показывает (или ещё как-то обрабатывает) текст, должна сначала читать, какая у него кодировка, и переключаться на неё. Таким образом, описание кодировки текста будет присутствовать в начале самого текста...

pasha_semionov January 8 2011, 09:00:48 UTC

Я написал, как оно там вначале указывается, а ЖЖ эту строчку проглотил... Очевидно, он посчитал её тегом HTML :)

gegmopo4 January 8 2011, 11:39:57 UTC

Это не фантастика, это стандарты. Уже давно в служебных заголовках письма указывается тип и кодировка, например:
Content-Type: text/plain;
charset=KOI8-R
или
Content-Type: text/html; charset="utf-8"

Аналогично указывается и в служебных заголовках ответа веб-сервера. Уже давно, лет 10-15, если не 20.

Проблема в том, что некоторые устаревшие клиенты (преимущественно это относится с распространённым продуктам MS, хотя есть и другие уроды) плюют (плевали) на стандарт. Если просто не указывают кодировку и на той стороне приходится угадывать -- ещё полбеды. Хуже, если указывают неверно. Тогда другим приходится "угадывать", что в клетке лев, даже если на ней написано "бык". И вот на этом этапе искусственный интеллект Гуголя даёт сбой для кириллицы.