О проекте print-on-demand все уже разумеется слышали (если кто вдруг в курсе - общую информацию можно посмотреть
здесь). На выставке Non\Fiction мы демонстрировали чудо-станок в действии, все пять дней активно печатали книги и объясняли, каким образом все это функционирует и зачем оно нужно. Однако некоторых посетителей заинтересовало не только то, каким образом происходит печать-обрезка-склейка, но и техника изготовления макетов для последующей печати. Действительно, практически все книги из тех, что были представлены на выставке и теперь продаются у нас в магазине, отсканированы участниками проекта print-on-demand (далеко не все издательства хранят макеты давно напечатанных книг). Качественные pdf у нас стали получаться далеко не сразу, пришлось посидеть и разобраться - в сети есть несколько инструкций по сканированию, но они не настолько хороши, чтобы можно было пользоваться ими “как есть”, поэтому мы решили сделать собственное руководство (объяснить процесс изготовления pdf максимально доступно, с картинками и лирическими отступлениями).
Лирическое отступление последует незамедлительно, и если вас интересует только техника сканирования - можете смело пропустить пространные разглагольствования и перейти
сразу к делу. Скажем сразу, что сканировать будем вот это:
Книги в pdf нужны не только и не столько для того, чтобы печатать их на бумаге. Наша убогая система книгораспространения не оставляет многим читателям иного выбора, кроме как скачивать книги из сети и читать их с экрана, что на самом деле не так уж и плохо, поскольку это а) практично (на флэшке размером в полпальца помещается столько книг, сколько не вместит ни один шкаф); б) дешево (если не сказать бесплатно); в) экологично. К сожалению, активно развивающиеся электронные букридеры пока не справляются в достаточной степени с форматом pdf, они в основном заточены под более популярные форматы вроде fb2 и epub, которые хороши для художественной литературы, но не очень подходят для non fiction. Ситуация со временем изменится - рынок e-ink устройств все еще находится в стадии становления. Однако уже сейчас pdf является идеальным вариантом как для работы с научной литературой, так и для чтения старых малодоступных изданий, которые попадают в сеть благодаря усилиям google books и немногочисленных энтузиастов.
В частности, многие книги появились в сети благодаря подвижничеству человека-сканера
Славы Янко. Он отсканировал кучу важных книг - правда, когда он начинал, интернет был несколько другим, пдфов тогда никто особо не изготавливал, книги были в основном в doc, тхт и html, но неленивый Янко делал офигительные doc-книги с html-форматированием, так что до сих пор можно пользоваться например его "
Грамматологией" или
"Избранными работами" Барта. Поскольку ни одно доброе дело не должно оставаться безнаказанным, владельцы авторских прав начали писать Янко кляузы, и его библиотека перешла в полузакрытый режим (многие книги можно найти на других сайтах, хозяин библиотеки проводит "дни открытых дверей" и вроде бы все время на связи - если что-то срочно нужно, надо просто ему написать - так во всяком случае сказано на сайте). Так же рекомендуем ознакомиться с эпическим автобиографическим текстом "
Как я отсканировал 600 книг". Еще один интересный проект - библиотека
imwerden.de. Вот там как раз все в pdf, правда, в основном художественная литература, но без ерунды. Например, "
Похвала глупости" Роттердамского 1931 года той же "Академии" или "
Размышления" Марка Аврелия, изданные в Туле в 1882 году.
Можно подписаться на
rss с обновлениями, имверденовские книги стабильно высокого качества. "Библиотека содержит самое большое в Рунете собрание", по словам Википедии, "авторских чтений своих произведений в аудио- и видеоформатах". Что самое смешное, даже к этой абсолютно некоммерческой библиотеке, занимающейся в основном раритетными изданиями, были претензии по копирайту (сейчас не упомнить, что и кого именно не устроило, но анекдот был серьезный - вроде того, что владельцы прав на Феофана Прокоповича приказали убрать его книги из библиотеки; возможно, это был и не Прокопович - в данный момент он доступен). Неплохой проект
Natahaus - там, правда, много книг по домоводству и программированию, гуманитарную литературу приходится выискивать, но она есть, и местами весьма нетривиальная. Например, "
Повесть о Куликовской битве. Текст и миниатюры Лицевого свода XVI века" или "
Сочинения Дионисия Ареопагита" - не все в pdf, кое-что в djvu (у этого формата есть свои поклонники).
Трудно отказать себе в удовольствии и не пнуть лишний раз пресловутые "Литрес" и "Либрусек": "свободная библиотека" "Либрусек" встала на путь коммерциализации - в принципе, не очень-то и жалко, потому что едва ли не на девяносто процентов она состояла из непонятно чего, а классику можно найти в сети и так. Нехорошо то, что библиотека наполнялась контентом за счет читателей-энтузиастов, а теперь все это будет предоставляться за бабки. Активным юзерам были обещаны преференции, но это дела не меняет - отсюда недалеко до откровенного свинства вроде торговли
Константином Леонтьевым. (Первоначально фигурировавшие в посте имена “Рабле” и “Сервантес” убраны из текста по просьбе правообладателя - см. комментарии ниже).
К сожалению, отечественные свободные библиотеки не идут ни в какое сравнение с такими ресурсами, как
gigapedia.com или
avaxhome.ws. Что-то вроде гигапедии и нужно делать у нас, т.к. русскоязычные книги заливать в "ихнюю" гигапедию почти бессмысленно: обычным поиском их не найти, а внутри самого сайта они просто затеряются в море англоязычной литературы.
Мораль сей басни проста: надо сканировать книги и делать их доступными, поскольку издатели, книгопродавцы и толстощекие мужики в костюмах очень мало заинтересованы в популяризации и распространении гуманитарной литературы. У всевозможных биг боссов есть дела поважнее, поэтому читатели должны позаботиться о себе сами - тем более что не так уж это и сложно.
Смерть Эмпедокла
Книга Гельдерлина выбрана по принципу "мы не ищем легких путей". "Смерть Эмпедокла" - библиографическая редкость, “Академия” издала ее один раз в 1931 году тиражом 4000 экземпляров, соответственно шансы заполучить эту книгу в домашнюю библиотеку близки к нулю. Затем трагедию Гельдерлина
переиздавали (если аннотация не врет) в 1969 году - большой том сочинений вышел в "Художественной литературе" тиражом 25 000 экземпляров (на самом деле сканировать нужно его, конечно). В 1988 году было известное издание "Гипериона" в "Литпамятниках", оно относительно доступно, и, наконец, в 1994 году выходила
вот такая странная книга. Почему Гельдерлин оказался в одной компании с Генрихом Якубанисом, не совсем понятно.
Сканировать "Смерть Эмпедокла" сложно, поскольку книга напечатана наборным шрифтом, мелким кеглем, хитрой гарнитурой с тонкими засечками, да к тому же почти восемьдесят лет назад. Однако на выходе можно получить сносное качество как для репринта, так и для чтения с экрана, что мы и постараемся продемонстрировать (кстати, есть все основания полагать, что Луначарский будет не очень возмущен нарушением его авторских прав).
Сканер - оружие пролетариата
Сканеры сейчас есть у многих, у кого нет - купить не проблема. Как показывает практика, в деле изготовления сканов железо особой роли не играет, зато играют роль софты - причем куда большую, чем может показаться. Поэтому сразу скажем: для подготовки pdf программа Abby Finereader не нужна вообще. Те, кто пользуется файнридером, знают, что у него есть функция сканирования в pdf. С результатами такого сканирования можно ознакомиться
тут. Не сказать, что это никуда не годно (да и вообще спасибо тому, кто сделал, а то бы вообще в сети не было), но напечатать такой pdf невозможно, да и читать нелегко: прыгающие страницы, разъезжающиеся буквы, периодически вылезающие крякозябры - это все не круто. Мы пойдем другим путем.
Процесс создания pdf включает в себя три основные операции: собственно сканирование, обработка сканов и конвертация в pdf. Для каждой из них нужны специальные программы, а именно:
AcdSee Pro,
ScanTailor и
Adobe Acrobat (не Reader).
AcdSee нужен потому, что не все йогурты одинаково полезны: несмотря на то, что существует тысяча программ, при помощи которых можно делать сканы, но они дают разное качество. В частности, по причине низкого качества исходника, Гельдерлина мы будем сканировать с чудовищным разрешением 1200 dpi - далеко не все программы работают в таком режиме (для обычной современной книги с нормальным кеглем вполне хватает 600 dpi). Самое главное при сканировании сделать так, чтобы текст книги полностью прилегал к стеклу сканера - если угол на месте разворота будет слишком большим и часть текста отойдет, изображение в этом месте получится нечетким, и после обработки возникнет брак. Поэтому книгу нужно разворачивать на 180 градусов, а если она сопротивляется - применять силу и прижимать ее на протяжении всего процесса.
Сканировать нужно обязательно в формат tiff. Сырые тиффы получаются дикого размера - при 1200 dpi это 130 мб. Несложно подсчитать, что если мы сканируем книгу, в которой четыреста страниц, т.е. двести разворотов, то нам потребуется 26 гигов свободного места на диске. С одной стороны это несколько многовато, с другой - харды сейчас не те, что раньше, а по окончании всех операций pdf будет весить не больше 5-7 мб (скорее всего даже меньше), так что вполне можно позволить себе такую роскошь (тем более что данный случай неординарный - тиффы при рядовых 600 dpi получаются в разы меньше).
Тут мы выбираем папку для тиффов и способ нумерации. Обратите внимание: если сканирование происходит в несколько заходов, нужно следить за нумерацией, т.к. страницы должны идти по порядку, т.к. Лучше чтобы они не путались - не будет лишней мороки.
В окне ScanGear выбираем расширенный режим, меняем “Цветной” на “Оттенки серого” и ставим 1200 dpi. Готово дело - можно сканировать, программа все пронумерует и сложит в предварительно подготовленную папку. Маленькая тонкость: по ходу дела книгу лучше не вертеть (грубо говоря, верх полосы должен быть все время справа, а низ слева, или наоборот), т.к. при последующей обработке нужно будет исправлять ориентацию полос - единообразие значительно упростит эту процедуру.
На выходе мы получаем такие картинки и переходим ко второй стадии:
Программа ScanTailor проста и удобна в обращении (т.н. “интуитивно понятный интерфейс”). Открываем новый проект, запихиваем туда все наши тиффы и пакетно их обрабатываем.
Поворачиваем полосы:
Режем на отдельные страницы:
Устраняем неизбежно возникающий по ходу сканирования наклон полос:
До этой операции можно работать не глядя, программа сам автоматом сделает все необходимое. Однако после выделения “полезной области”, т.е. той части сканов, которая потом пойдет в макет, необходимо проверить все полосы. ScanTailor любит хватить лишку или наоборот отрезать больше чем нужно, поэтому пролистываем все страницы и поправляем то, что нам не нравится. На картинке ниже хорошо видно, что полезная область получилась больше чем требуется.
Макет страницы: выставляем размер полей, обрабатываем и опять проверяем. Если что-нибудь съехало - можно легко поправить, растягивая розовую рамочку. Также стоит обратить внимание на пустые полосы, которые необходимы для полного соответствия pdf оригиналу. Поскольку программа старается не упустить ни сантиметра “полезной области”, пустые страницы чаще всего заполняются грязными пятнами (поскольку просвечивает другая полоса). В самом Тейлере с этим ничего не поделаешь: такие тиффы надо потом очистить в любом графическом редакторе.
Готово дело: можно нажимать вывод и заниматься другими делами - эта операция занимает довольно много времени. В результате в папке с исходниками мы получим папку “Out” (если предварительно не указали иное расположение), в которой будут готовые для конвертации тиффы (они кстати получаются куда более щадящего размера - от 10 до 200 килобайт каждый, если без картинок).
Вот такие картинки получаются:
Третья стадия: конвертируем тиффы в pdf. Разумеется, это можно сделать не только профессиональным Акробатом, однако другие программы не обеспечивают качественной компрессии, изображение может получиться нечетким и искаженным. К тому же Акробат хорошо приспособлен для постобработки склеенных пдфов.
Выделяем все это богатство, щелкаем правой кнопкой и выбираем “Сombine”. В открывшемся окошке надо выбрать большой file size, после чего можно склеивать тиффы:
Вскоре мы получим готовый pdf, Акробат предложит его как-нибудь назвать и куда-нибудь сохранить. Дальше его можно “постобработать” в три этапа.
Улучшение качества изображения. В пункте меню “Документ” выбираем :
Настройки оставляем по умолчанию - кроме помеченного розовеньким:
Оговоримся: в случае с “Гельдерлином” эта операция не требуется, т.к. качество исходников не позволяет ничего особо улучшить. Буквы получаются не достаточно четкими, чтобы их можно было сгладить, однако в большинстве случаев оптимизация pdf весьма полезна.
Сжимать наш pdf тоже не имеет смысла, т.к. его размер - 3,5 мб, но если pdf получается допустим мегабайт двадцать, это не помешает. Оценивать эффект той и другой операции нужно каждый раз отдельно - случается так, что после оптимизации или сжатия качество не улучшается.
И, наконец, выделение текстового слоя. Для печати никакой роли не играет, для чтения с экрана может пригодиться: в таком pdf текст можно подчеркивать, вытаскивать оттуда цитаты. Насколько точно Акробат распознает текст - зависит все от того же качества исходника, но также и от самого скана (грубо говоря, Гельдерлина как ни сканируй, текста оттуда не извлечешь - разве только потом распознать Файнридером; с отсканированными на 300 dpi Бартом или Делезом тоже ничего не выйдет, для OCR в Акробате надо как минимум 600).
Насчет обложки - если pdf просто для чтения, она не особо нужна, хотя можно ее отсканировать и поставить первой страницей. Для печати же обложка необходима, причем не только обе ее стороны, но и корешок.
У Гельдерлина обложка голая, т.к. раньше сверху был супер, который до двадцать первого века не дожил. Мы сохраняем аутентичные обложки, но эту пришлось переверстать (как она выглядела в оригинале - неизвестно):
Какой из вариантов вам больше нравится?
Получившийся pdf (3,5 мб) можно скачать
по прямой ссылке с нашего сайта.
Также хорошо бы отсканировать и переиздать другие книжки “Академии” - кровожадные большевики успели в 30-х годах наиздавать роскошных книг. Например, роман “Зибенкез” Жан-Поля Рихтера, двухтомник с прозой немецких романтиков (он, правда, переиздавался, но гораздо попроще), Макиавелли с предисловием Каменева и т.п. - конечно, не сплошные раритеты, но зато совершенно точно полиграфические шедевры. Сейчас на таком уровне книги издают очень немногие издательства.
Вряд ли это руководство можно считать исчерпывающе полным - при случае постараемся дополнить его, пока же готовы принять советы, замечания и вопросы по адресу
media@falanster.su (все, что касается программ, pdf и сканирования).