Прошло семь лет - ничего не изменилось.
Оригинал взят у
intaurus в
Abbyy FineReader - унылое говноМного лет назад пользовался то ли 3-й, то ли 4-й версией FineReader, теперь когда снова настала необходимость распознать текст, скачал 9-ю, естественно ломаную и бесплатную :) Казалось бы за столько лет следовало бы ожидать большой разницы между версиями и большого прогресса в распознавании. Но не тут-то было. Интерфейс действительно шагнул вперёд, хотя тоже нельзя сказать, что сильно далеко. Но практически все недостатки самого процесса распознавания, присущие старым версиям FineReader так и остались (сразу хочу заметить, что для распознавания использовались графические файлы отсканированных листов книги с достаточным качеством - 300 dpi, контрастный текст без повреждений):
- программисты так и не научили FineReader понимать число 30 - программа упорно пишет его буквами З и О; у меня нет объяснения, почему эту проблему нельзя решить - хотя бы тупой автозаменой "ЗО " на "30 "
- часто рядом с дефисом появляется вертикальная черта - откуда она берётся совершенно непонятно
- на картинках выделяются якобы текстовые области там, где нет никаких намёков на то, что это текст; при этом программа тратит кучу времени "рассматривая" картинки и пытаясь отыскать в них эти самые области
- ужасное распознавание на сгибах страниц, там где строка слегка загибается - информации для распознавания более чем достаточно, но похоже на то, что алгоритма коррекции в программе нет и слегка повернутые буквы распознаются неправильно
- очень много переносов остаются в тексте в виде дефисов, несмотря на то, что в FineReader встроены словари, с которыми должна была бы сверяться программа
- иногда при переносе слов программа сама умудряется вставлять буквы, например вместо разбитого на две строки слова "потреблять" в итоговом тексте оказалось "потреб-блять", хотя в исходнике сдвоенных букв не было, так же как и нецензурной лексики ;)
- на развороте из двух страниц блоки для распознавания могут быть пронумерованы вперемешку - сначала блок с левой страницы, потом с правой, потом снова с левой
- программа в авторежиме иногда "ругается" на стопроцентно русские тексты как на неправильные (просит проверить язык вручную)
- FineReader совершенно не понимает сносок и обрабатывает как придётся - то определяет для них отдельный блок, то распознает вместе со всем текстом страницы
- странно, что до сих пор не решена проблема с пагинацией - уже пора бы придумать алгоритм, который при сканировании книг позволил бы отсекать номера страниц на листах, которые потом в готовом сплошном тексте надо удалять вручную
- даже когда есть чёткая ровная колонка текста блок для распознавания может быть выделен не как ровный, а состоящий из множества ломаных линий - иногда просто приходится удалять определённый автоматом блок и рисовать новый вручную
- то, в каком виде отсканированный документ передаётся в Word (форматирование абзацев, стилей) вообще не поддаётся описанию средствами нормативной лексики - легче сразу сохранить файл в виде плоского текста, чтобы избавиться от всего форматирования
- вообще чтобы меньше мучаться с готовым уже впоследствии текстом приходится перед распознаванием делать много ручной работы
- про скорость работы программы тоже ничего хорошего сказать нельзя - хотя кто знает, возможно на 300-процессорном суперкомпьютере она работает быстро :)
После всего этого остаётся вопрос - а за что вообще платят больше 100 долларов (профессиональная версия) лицензионные пользователи этой программы? Я бы не дал за такую и 10 долларов. Тем более обидно за тех, кто платит за обновления, не получая взамен практически ничего нового - основная функция программы, распознавание текста, застряла на уровне 1990-х годов. Короче, все рекламные тексты от Abbyy вроде "идеальное решение", "высочайший уровень точности распознавания", "быстро и точно переводит" - всего лишь рекламные тексты, а не действительность :(