Сносить нельзя сохранить. Генеральный план Москвы в формате DjVu

Mar 15, 2010 16:21

Выложил генеральный план Москвы до 2025 года в нормальном формате. В нём общими чертами обрисована судьба каждого микрорайона Москвы.

Сей документ Москомархитектура убого опубликовала в виде картинок с гипертекстовой навигацией у себя на сайте. Творение это сделано с помощью конвертера PDF в HTML "для взрослых" (AdultPdf). А ведь могли бы и выложить исходные PDF документы! В результате оглавление есть, а вот поиска по документу нет. Как нет и возможности распечатать документ или сохранить его себе на компьютер. Во всяком случае, 99% читателей не станут париться и сохранять/печатать постранично. Но то - как было. А стало лучше.

Во-первых, генплан в DjVu можно скачать и сохранить на свой комп как обычный файл. Во-вторых, в нём есть поиск по тексту. В-третьих, есть исходное оглавление (с исправленными ошибками), а также размечено ссылками содержание непосредственно на страницах. Перенесена вся гипертекстовая навигация, то есть по карте можно щёлкать и переходить на нужную страницу. Так же присутствуют комментарии (см. например, первую карту в книге 2).

Сразу скажу, инструмента для автоматизированного перевода того, что было в то, что стало не существует. Есть много разных программулин (для конвертирования графики, создания закладок, разметки оглавления, распознавания и вставки текстового слоя), да к тому же пришлось написать конвертер карт ссылок из исходных HTML файлов в DjVu формат. Попутно был обнаружен потрясающий .Net компонент для работы с HTML документами - Html Agility Pack, позволяющий парсить HTML с помощью XPath выражений.

software, book, djvu, parsing, russian

Previous post Next post
Up