В прошлый раз я написал текст с
тем же заголовком больше десяти лет назад. С тех пор ситуация немного улучшилась.
Лучшее, что сейчас есть из бесплатного - это по-прежнему gscan2pdf + cuneiform
Текст распознаёт cuneiform, а gscan2pdf - это просто графический интерфейс к нему, с разными дополнительными плюшками.
Чтобы поставить всё это себе, просто скажите
$ sudo apt-get install gscan2pdf cuneiform
Итак, вы отсканировали текст в PDF. (Это, кстати, можно сделать прямо внутри Gscan2PDF.)
Открываете Gscan2PDF. И дальше:
Open → Tools → OCR → <настройки> → Start OCR → Save As PDF
Настраиваемые параметры - это:
* язык текста (ведь русский распознаётся совсем не так, скажем, как болгарский)
* движок распознавания (я использую cuneiform, но можно, например, tesseract)
* можно распознавать не весь текст, а только выделенные области
Всё, у вас есть сохранённый PDF-файл с текстом внутри. Можно копипастить оттуда текст или, если, например, надо перевести на другой язык, можно просто скормить файл гугло-переводчику (лучший быстрый перевод текста на сегодня).
Если же вам надо то же самое из командной строки, то можно напрямую вызвать cuneiform. Общая схема:
$ cuneiform [--dotmatrix] [--fax] [--singlecolumn] [-f format] [-l language] [-o output] input
Реальный пример использования - давайте распознаем немецкий текст в одну колонку:
$ cuneiform --singlecolumn -f text -l ger -o output input
Результат уже вполне приличный.