Об особенностях распознавания рукописного текста на Почте России: pohjois

pohjois_sika

Об особенностях распознавания рукописного текста на Почте России

Feb 01, 2016 16:25

Пару недель назад наткнулся у уважаемой mithrilian на пост не менее уважаемого chiefsonnew О Перми и о "Почте России". В нем автор, наблюдавший, прямо скажем, не вполне адекватное распознавание написанных хвостом непокорного мула рукописных топонимов, делает вполне обоснованный вывод: теперь, мол, понятно, почему наша почта так хреново работает. И вообще Сименс + Почта России не равно любовь.

Первая мысль - вот ведь как оно-то. Нужно тоже перепостить, и пусть все узнают правду. Но потом прочитал комменты, где люди стали разбираться и предположили неверную установку языка и пр. В общем, стало непонятно. Затем я вдруг сообразил, что работаю в двух шагах от Музея Связи и вообще-то мог бы и сам проверить. Пуркуа бы и не па. Вдохновляемый mithrilian и посетителями ее блога, в один из дней пренебрег обедом (никакого самопожертвования, наоборот, иногда полезно :-)) и сходил-таки.

Начал, как положено, с инструкции:

Бросаются в глаза два важных момента: первый - это демонстрационная программа, и второй - это программа 2005 года разработки. Не прошлый век, конечно, но все-таки десять лет как сделана. Будем иметь это ввиду. А то по прочтении исходного поста у меня сложилось впечатление, что на Почте России прямо сейчас этот вот самый движок письма сортирует. Что, кстати, может быть, но вовсе неочевидно.

Ну посмотрим.

Прежде всего я проверил установку языка. Язык можно выбрать русский, английский или немецкий. Но, как потом будет видно, это язык интерфейса, не более того. Язык распознаваемого текста определяется все-таки автоматически.

Область названий ограничивается т.н. словарями:

Выбрал 1-Russian Cities и первым делом проверил, конечно, ПЕРМЬ и ПЕРЬМЬ. Таки да, есть такая буква:

Переключил язык, написал снова:

Уже менее уверенно (48% против 81%), но программа стоит на своем. Английский язык, видимо, не при делах, просто в этот раз текст чуть кривее. Что интересно, ни KAZAN, ни PENZA не появились, хотя хвост моего мула был не более покорным, чем у chiefsonnew . В чем же дело?

Тут вот какой момент: инструкция (см. выше) велит писать текст следует строго внутри светлого прямоугольника и не выходить за его границы. А у chiefsonnew это получилось только на третий раз. В первых попытках программа лишалась заметной части информации, так что ошибки вполне объяснимы и простительны.

Затем :

VOLGOGRAD почему-то не возник, хотя я старательно нарисовал два мягких знака. А возникла ошибочная ситуация, как и должно быть. Значит может все-таки, когда захочет? Еще один вывод - карточка названия города и ключевое значение для поиска здесь - не одно и то же.

Дальнейшие эксперименты показали вполне приемлемое качество распознавания названий российских городов, причем на обоих языках:

Челябинск оказался настолько суров, что правильно нашелся даже в другой транслитерации:

Справедливости ради, VOLGOGRAD однажды все-таки появился:

Наверное все-таки обработчик ситуации "не найдено" так странно себя ведет. Города Череповца в словаре действительно нет. А вот список всех российских городов, которые знает программа:

Как видно, ПЕРЬМЬ на месте :-) И что-то мне подсказывает, что продуктивная база населенных пунктов Почты России все-таки несколько отличается от этого списка.

Европейские столицы были вполне на высоте:

Лондон неожиданно нашелся на своем родном языке:

что, впрочем, с учетом Берлина наталкивает скорее на мысль об ошибке в русском названии в карточке. А вот город Монако озадачил:

Причем самого Монако в словаре не оказалось:

Есть предположение, что программа ищет совпадение по первым буквам, и если находит хоть что-то, выдает его, не заботясь о совпадении остальных символов. Если так, то это объясняет и CHELYABINSK vs. CHELIABINSK.

Там еще до кучи есть другие словари: штаты США, планеты Солнечной системы и российские поэты.

С поэтами как-то не сложилось. Не найдя очевидных Пушкина и Лермонтова, я полюбопытствовал, а каких вообще русских поэтов знает программа. Соответствующий словарь оказался, как бы это сказать, довольно задумчивым:

В общем, ничего удивительного, что тут мы потерпели неудачу.

Кроме того, программа сыровата в части управления и зависает на несколько минут при попытке принудительно закрыть этот или подобные экраны и выйти на главный. Так что я бы сказал, что уровень ее исполнения не коммерческий, а скорее студенческий. Но зато у экспоната оказался совсем неплохой демонстрационный ролик об оптическом распознавании рукописного текста вообще и почтовых адресов в частности.

Резюмирую. Эта демонстрационная программа для своего назначения и возраста выглядит и работает вполне приемлемо, за исключением ошибок интерфейса. А Почта России работает "медленно и неправильно" (с) по каким-то другим причинам :-)