Пару недель назад наткнулся у уважаемой
mithrilian на пост не менее уважаемого
chiefsonnew О Перми и о "Почте России". В нем автор, наблюдавший, прямо скажем, не вполне адекватное распознавание написанных хвостом непокорного мула рукописных топонимов, делает вполне обоснованный вывод: теперь, мол, понятно, почему наша почта так хреново работает. И вообще Сименс + Почта России не равно любовь.
Первая мысль - вот ведь как оно-то. Нужно тоже перепостить, и пусть все узнают правду. Но потом прочитал комменты, где люди стали разбираться и предположили неверную установку языка и пр. В общем, стало непонятно. Затем я вдруг сообразил, что работаю в двух шагах от Музея Связи и вообще-то мог бы и сам проверить. Пуркуа бы и не па. Вдохновляемый
mithrilian и посетителями ее блога, в один из дней пренебрег обедом (никакого самопожертвования, наоборот, иногда полезно :-)) и сходил-таки.
Начал, как положено, с инструкции:
Бросаются в глаза два важных момента: первый - это демонстрационная программа, и второй - это программа 2005 года разработки. Не прошлый век, конечно, но все-таки десять лет как сделана. Будем иметь это ввиду. А то по прочтении исходного поста у меня сложилось впечатление, что на Почте России прямо сейчас этот вот самый движок письма сортирует. Что, кстати, может быть, но вовсе неочевидно.
Ну посмотрим.
Прежде всего я проверил установку языка. Язык можно выбрать русский, английский или немецкий. Но, как потом будет видно, это язык интерфейса, не более того. Язык распознаваемого текста определяется все-таки автоматически.
Область названий ограничивается т.н. словарями:
Выбрал 1-Russian Cities и первым делом проверил, конечно, ПЕРМЬ и ПЕРЬМЬ. Таки да, есть такая буква:
Переключил язык, написал снова:
Уже менее уверенно (48% против 81%), но программа стоит на своем. Английский язык, видимо, не при делах, просто в этот раз текст чуть кривее. Что интересно, ни KAZAN, ни PENZA не появились, хотя хвост моего мула был не более покорным, чем у
chiefsonnew . В чем же дело?
Тут вот какой момент: инструкция (см. выше) велит писать текст следует строго внутри светлого прямоугольника и не выходить за его границы. А у
chiefsonnew это получилось только на третий раз. В первых попытках программа лишалась заметной части информации, так что ошибки вполне объяснимы и простительны.
Затем :
VOLGOGRAD почему-то не возник, хотя я старательно нарисовал два мягких знака. А возникла ошибочная ситуация, как и должно быть. Значит может все-таки, когда захочет? Еще один вывод - карточка названия города и ключевое значение для поиска здесь - не одно и то же.
Дальнейшие эксперименты показали вполне приемлемое качество распознавания названий российских городов, причем на обоих языках:
Челябинск оказался настолько суров, что правильно нашелся даже в другой транслитерации:
Справедливости ради, VOLGOGRAD однажды все-таки появился:
Наверное все-таки обработчик ситуации "не найдено" так странно себя ведет. Города Череповца в словаре действительно нет. А вот список всех российских городов, которые знает программа:
Как видно, ПЕРЬМЬ на месте :-) И что-то мне подсказывает, что продуктивная база населенных пунктов Почты России все-таки несколько отличается от этого списка.
Европейские столицы были вполне на высоте:
Лондон неожиданно нашелся на своем родном языке:
что, впрочем, с учетом Берлина наталкивает скорее на мысль об ошибке в русском названии в карточке. А вот город Монако озадачил:
Причем самого Монако в словаре не оказалось:
Есть предположение, что программа ищет совпадение по первым буквам, и если находит хоть что-то, выдает его, не заботясь о совпадении остальных символов. Если так, то это объясняет и CHELYABINSK vs. CHELIABINSK.
Там еще до кучи есть другие словари: штаты США, планеты Солнечной системы и российские поэты.
С поэтами как-то не сложилось. Не найдя очевидных Пушкина и Лермонтова, я полюбопытствовал, а каких вообще русских поэтов знает программа. Соответствующий словарь оказался, как бы это сказать, довольно задумчивым:
В общем, ничего удивительного, что тут мы потерпели неудачу.
Кроме того, программа сыровата в части управления и зависает на несколько минут при попытке принудительно закрыть этот или подобные экраны и выйти на главный. Так что я бы сказал, что уровень ее исполнения не коммерческий, а скорее студенческий. Но зато у экспоната оказался совсем неплохой демонстрационный ролик об оптическом распознавании рукописного текста вообще и почтовых адресов в частности.
Резюмирую. Эта демонстрационная программа для своего назначения и возраста выглядит и работает вполне приемлемо, за исключением ошибок интерфейса. А Почта России работает "медленно и неправильно" (с) по каким-то другим причинам :-)