накопилось

Mar 19, 2013 02:29

множество электронных книг и возник вот какой вопрос. Есть ли какой-нибудь софт, позволяющий осуществить поиск текста в отсканированных документах и книгах, т.е. поиск текста не по тексту, а по картинке с текстом (пдф, дежавю...)?
Например, как на http://www.knigafund.ru/ это сделано.

ВФ

Leave a comment

Comments 4

arkady_z March 19 2013, 10:57:07 UTC
Сомневаюсь, что такое есть.. Этож надо сначала текст во всей книге распознать..

Reply

assal March 19 2013, 19:59:14 UTC
распознавалка есть, но займет это мероприятие кучу времени, которого уже нет

а по какому принципу сие организовано на сайте?

Reply

arkady_z March 20 2013, 07:15:03 UTC
Да, здорово у них сделано.. Могу предположить, что книги у них уже распознаны, и текст привязан к изображению..

Reply

arkady_z March 20 2013, 07:20:52 UTC
Вот еще что нарыл: "Специальных средств отображения текста формат DjVu не имеет, но позволяет хранить невидимый текстовый слой со сведениями о координатах расположения строк. Такая структура дает возможность проводить текстовый поиск в файлах." То есть такое в формате djvu возможно, но книга должна содержать этот невидимый слой.

Reply


Leave a comment

Up