Перевод в машинографический вид графических изображений. Мифы и реальность. Выбор решения.: elibconsult

nik_melnikov in elibconsult

Перевод в машинографический вид графических изображений. Мифы и реальность. Выбор решения.

May 18, 2010 15:21

Понятие машиночитаемость означает сохранение какой-либо информации в виде, понятной для компьютера. Графическое изображение тоже является понятным для компьютера, но как растровый формат, а не текст. Соответственно встает вопрос каким образом переводить это самое графическое изображение в машиночитаемый вид, например, для целей поиска или просто для возможности редактирования, какими инструментами пользоваться и какие существуют мифы относительно данной проблемы. В данной статье попробуем разобраться со всеми перечесиленными пунктами и отразить все подводные камни распознавания.

Исходными данными для распознавания являются любые файлы графического формата, будь то одиночный jpeg-файл или многостраничный tiff. Выходом, например, может быть pdf-формат, позволяющий хранить в себе как отсканированную книгу, так и ее распознанный текст совершенно прозрачно.

Какие же програмные продукты используются? На слуху у всех ABBYY FineReader, успешно развернувшийся на рынке. Но существуют и альтернативные решения, в том числе и отечественной разработки. Это Cunei Form, как раз отечественный продукт, сейчас уже ставший бесплатным, и OmniPage, наиболее богатый по функциям из всех настольных систем. В данном обзоре мы коснемся только этих решений.

Представим, что нам поставлена задача распознать 1000 книг. Простейшим решением является использование обыкновенной десктоп системы или ручной труд сотрудников. Давайте рассмотрим как функционирует такая работа:

В программу загружается набор документов, пришедших со сканирования
Ожидание их прочтения программой
Настройка выходного каталога и возможно параметров работы
Запуск процесса
Ожидание окончания
Повторение пункта 1 до полной обработки всех документов
Загрузка обработанных документов в информационную среду

Возможные проблемы в данном подходе:

аварийное завершение программы (сложные настольные программы имеют тенденцию к более частому аварийному завершению)
оператор перепутал пакет входных данных

В обоих случаях приходится восстанаваливать исходное состояние и начинать с начала. В итоге, оператор занят довольно таки длительное время. Прикинем примерное время занятости на 300 страниц текста. Ручная работа: п.1 и п.7 ~ 10 мин плюс остальные этапы работы системы ~ 30 минут. Еще отведем на решение возникших проблем ~ 10 мин. Итого около 45 мин общего времени оператора. Неприемлимо долго.

Решением является оптимизация этого процесса путем пакетной обработки. Далее будут продемонстрированы результаты тестирования трех уже знакомых нам системы. ABBYY Recognition Server, OmniPage и CuneiForm под Linux. За тестируемые экземпляры возьмем учебник из 10 книг по 360 страниц и каталожные карточки в количестве 5000 штук. Разрешение возьмем 300 DPI.

читать статью полностью

OCR (распознавание), сканирование фондов, сайт ELIBCONSULT, статья