Воскресный отдых. Как из бумажной книги сделать электронную.

Apr 05, 2015 12:00

В современном мире, мире доступных знаний и относительно дешёвых книг, остаётся одна главная проблема: наличие времени на чтение. Желание читать предполагаем по-умолчанию.
Современные методики тайм-менеджмента, типа системы Дэвида Аллена под общепринятым названием «GTD» (Getting Things Done), или, если по-русски, «Как держать дела в порядке», позволяют проанализировать использование времени и выделить время почти на все интересующие дела, используя временные «дыры» - стояние в очереди, поездку в общественном транспорте, обед на работе и прочее подобное
Поэтому очень удобно иметь под рукой нужные книги в компактном устройстве, которое позволит читать во время таких перерывов. Но что делать, если книгу надо быстро прочитать, а в электронном виде её нет? Ответ прост - сделать её электронной!



Это не так сложно, как кажется

Ну, самый простой, который и способом-то назвать нельзя - это простое фотографирование на тот же смартфон отдельных глав книги, их проработка, и затем фотографирование следующих глав.

Для получения же полноценного файла в формате DOC, PDF или FB2, нам понадобится немного больше времени и используемых инструментов, среди которых:

1. Сканер
2. Программа анализа и распознавания отсканированных страниц - Abbyy FineReader или аналогичный софт
3. Текстовый редактор для подготовки итогового файла. Например, Microsoft Word, с которым удобно взаимодействует Abbyy Finereader. Так же новые версии Word позволяют сразу экспортировать получившийся документ в PDF.
4. Программы htmlDocs2fb2 и Fb2Fix для конвертации полученного документа формата DOC в формат FB2 для удобного чтения на практически любых устройствах.

Начнём.

Сначала мы просто сканируем книгу



Обычно, это один из самых времяёмких этапов создания электронной книги, но он же и самый простой и механистичный. Просто перелистывать страницы и сканировать. В зависимости от мощности компьютера и размера сканируемого изображения, количество времени на сканирование каждого разворота книги варьируется от нескольких десятков секунд до нескольких минут. Обычно же сканирование одного разворота занимает менее минуты.
Разрешение при сканировании ставлю не менее 300 DPI. Начиная с этого разрешения, распознавание происходит с минимальным числом ошибок.



Для книги я создаю отдельную папку, в которой накапливаются изображения. И через некоторое время, когда вся книга будет отсканирована, в этой папке будет множество изображений, с которых и будет происходить распознавание текста.



Для распознавания текста я использую программу Abbyy FineReader, которая не только хорошо распознаёт текст, но и предоставляет удобные инструменты для предварительной работы с изображениями.
Изначально в программе есть три базовых режима работы со вновь открываемыми изображениями, это:

-Открыть
-Открыть и распознать
-Открыть и проанализировать



«Открыть» - просто откроет изображение в программе, предоставляя пользователю самому решать, что делать дальше.

«Распознать» - программа сразу после открытия проанализирует файл на наличие текста, рисунков и таблиц, и распознает его, переведя текст в нормальный и привычный текст, доступный для редактирования, таблицы - сделает таблицами, а рисунки оставит рисунками.

«Анализировать» - программа «просмотрит» каждое изображение и пометит в нём блоки, которые «увидела» - в отдельную рамку одного цвета поместит текст, в рамку другого цвета поместит рисунки, и в рамку третьего цвета - таблицы. Затем эти блоки можно править и «показать» программе, какие блоки она должна считать текстом, а какие - рисунками или таблицами. Если некоторая зона на изображении не выделена никаким блоком - она не будет распознана совсем. Это очень удобно в случае большого количества исходных изображений (как в нашем случае, с целой книгой), позволит отсечь изначально ненужные данные (например, номера страниц, или «мусор», который программа ошибочно приняла за рисунки).



Таким образом, оптимальный вариант, который я использую в случае книги - это «Открыть и анализировать». Программа обработает все изображения и выделит в них блоки, но распознавать пока не будет. После того, как я вручную уберу ненужные для распознавания блоки и поправлю те блоки, которая программа выделила некорректно (например, пометила текст в качестве рисунка), то даю программе команду на распознавание.
Через некоторое время программа завершит обработку изображений, и полученный результат можно будет передать в MS Word для дальнейшей обработки. Есть несколько вариантов экспорта в Word, Abbyy FineReader способен сохранить исходное форматирование текста и создать оглавление. Но часто какие-то моменты в оформлении приходится править вручную, особенно в случае оглавления.

В принципе, начиная с этого этапа, мы уже работаем с обычным электронным текстом. Если в книге мало рисунков и таблиц, или они сразу встали на свои места, то можно приступать к чтению или конвертации в FB2. Но нередко Abbyy FineReader передаёт данные в Word в достаточно не эстетичном виде, с непонятно каким форматированием и оформлением. Поэтому, для начала, нужно поправить форматирование. Иногда проще даже сбросить форматирование полностью и сделать его вручную, но обычно таких крайностей не нужно. Достаточно пробежаться по тексту, отметить заголовки и создать оглавление на первой странице.
Если же книга содержит ещё и таблицы с рисунками, то им надо уделить особое внимание, что бы они были на своём месте.

После правки текста в Word, мы сохраняем его в формате DOC, т.е. получаем электронную версию книги для чтения на компьютере. Но программы для чтения эл. книг на смартфонах, а так же на «читалках» e-ink, как правило, могут прочитать в файлах DOC только текст. Картинки, таблицы и содержание пропадают. И тут на помощь приходят конвертеры файлов DOC в формат FB2, в котором практически все девайсы читают все типы данных, отображая и рисунки, и содержание.
Для конвертации я использую программу htmlDocs2fb2, которая производит файл формата FB2 из файла формата DOC, и программу Fb2Fix, которая анализирует получившийся файл FB2 на ошибки и исправляет их. Так же часто эта программа исправляет уже готовые, скачанные из Интернета, файлы FB2, и они начинают открываться на устройствах, на которых раньше не открывались.

Такая связка из двух программ была найдена путём долгих экспериментов с различными конвертерами. А эксперименты были вызваны поиском решения проблемы отображения таблиц. При конвертации DOC в FB2, таблицы превращаются просто в текст, который уже невозможно читать таблицей. Ключевая особенность программы htmlDocs2fb2 в том, что она превращает таблицы в рисунки, и, тем самым, позволяет их просматривать в любой программе для чтения электронных книг формата FB2. Оглавление так же сохраняется и его можно вызвать через отдельное меню, предусмотренное в программах.



Чаще всего я не сканирую книги с нуля, а конвертирую найденный в Интернете файл формата DOC в FB2. Различные материалы по экономике, с множеством таблиц и графиков, вполне корректно конвертируются.

Вот такой небольшой практикум. Тема очень обширна, и если расписывать все тонкости, то уйдёт с десяток страниц. Так что если появились вопросы по теме - попробую ответить, задавайте:)

Воскресный отдых, Техника

Previous post Next post
Up