Распознавание текста в линуксе

riki_koen

Распознавание текста в линуксе - 2018

Aug 22, 2018 14:16

В прошлый раз я написал текст с тем же заголовком больше десяти лет назад. С тех пор ситуация немного улучшилась.

Лучшее, что сейчас есть из бесплатного - это по-прежнему gscan2pdf + cuneiform
Текст распознаёт cuneiform, а gscan2pdf - это просто графический интерфейс к нему, с разными дополнительными плюшками.
Чтобы поставить всё это себе, просто скажите

$ sudo apt-get install gscan2pdf cuneiform

Итак, вы отсканировали текст в PDF. (Это, кстати, можно сделать прямо внутри Gscan2PDF.)
Открываете Gscan2PDF. И дальше:

Open → Tools → OCR → <настройки> → Start OCR → Save As PDF

Настраиваемые параметры - это:
* язык текста (ведь русский распознаётся совсем не так, скажем, как болгарский)
* движок распознавания (я использую cuneiform, но можно, например, tesseract)
* можно распознавать не весь текст, а только выделенные области

Всё, у вас есть сохранённый PDF-файл с текстом внутри. Можно копипастить оттуда текст или, если, например, надо перевести на другой язык, можно просто скормить файл гугло-переводчику (лучший быстрый перевод текста на сегодня).

Если же вам надо то же самое из командной строки, то можно напрямую вызвать cuneiform. Общая схема:

$ cuneiform [--dotmatrix] [--fax] [--singlecolumn] [-f format] [-l language] [-o output] input

Реальный пример использования - давайте распознаем немецкий текст в одну колонку:

$ cuneiform --singlecolumn -f text -l ger -o output input

Результат уже вполне приличный.

linux