Для коммутации

May 04, 2024 21:01

Для того, чтобы мне что-нибудь сообщить. Комменты скринятся

Leave a comment

ivanstor January 23 2012, 17:20:16 UTC
Дело в том, что это не первая выходка, по отношению к моим постам, модераторов знания-власть. Обратите внимание: в обсуждение моего поста сразу всплыл вопрос "а не выпилить ли что-нибудь ещё?".
Я занимаюсь обработкой книг для собственного удовольствия и в рассуждении улучшения кармы :-)
Заниматься пустыми препирательствами с людьми, которые "не понимают" у меня нет ни времени, ни желания. Я сделал две попытки - этого вполне достаточно.
И ещё. Возможно, Вы не поверите, но я не обиделся. У меня вообще нет никаких эмоций по отношению к модераторам сообщества. Только голая целесообразность: взаимодействие с неадекватами занимает слишком много времени, создает атмосферу непредсказуемости, а у меня его, времени, мало и нет никакого желания разгадывать извивы сознания неинтересных мне людей.
Что касается Вашей беспокойства относительно коллекции сырых сканов, то я ведь предложил схему взаимодействия. Вы выкладываете ссылку в эту ветку или присылаете в личку. Я обрабатываю и выкладываю в свой журнал. Вы забираете и, разумеется, делаете что хотите. Дальнейшая судьба обработанных мною книг меня совершенно не интересует. Их уже и продают активно, да и черт с ним.
Если, по каким-то причинам, Вас не устраивает такая схема - предложите свою. Согласуем условия и будем работать. Я, например, очень хотел бы почитать упомянутую Вами "Ниву".

Reply

vas_s_al January 24 2012, 04:54:34 UTC
Как вариант - я по-прежнему выкладываю сканы в "Знание-силу", вы их оттуда качаете, понравившиеся обрабатываете, выкладываете у себя. Я таскаю их из вашего журнала обратно в З-С.
Такой вариант даёт возможность видеть "сырые" архивы всем желающим.

В случае недоразумений шишки сыпятся на меня. Как вам?

"Нива" будет в ближайшее время.
Я сейчас переснимаю Гладышевского и ещё несколько книг, которые по-хорошему надо давно было бы отдать владельцу. Использование сканера вместо фотоаппарата положительно сказалось на качестве формул и индексов. )
А "Ниву" я недавно позаимствовал, её пока можно подержать у себя.

Пока я доучился до обработки сканов СканТейлором с выделением зон картинок. Кстати, как потом страницы с картинками сжимать? А то я сканирую в 600 дпи, как вы советовали, и получается, что несколько страниц с картинками в итоговом пакете занимают места столько же, сколько все остальные бинаризованные страницы с текстом.
Так что новые сканы буду выкладывать в виде "полуфабрикатов".
Степень готовности полуфабрикатов будет повышаться по мере освоения мною всё более поздних стадий обработки.

Reply

ivanstor January 24 2012, 05:55:55 UTC
Как вариант - я по-прежнему выкладываю сканы в "Знание-силу", вы их оттуда качаете, понравившиеся обрабатываете, выкладываете у себя. Я таскаю их из вашего журнала обратно в З-С.
Такой вариант даёт возможность видеть "сырые" архивы всем желающим.
В случае недоразумений шишки сыпятся на меня. Как вам?

Что-то мне в этом подходе не нравится, как легко догадаться. В итоге я буду продолжать работать от З-С и на З-С, поскольку будет очевидно, где я взял сканы. Идеальный вариант для модераторов.

Пожалуй, я от такого варианта откажусь. Думаю, что если бы Вы примерили этот вариант на себя, то, наверное, и не стали бы его предлагать.
Кстати, сколько ваших сырых сканов обработали "все желающие"? Я прикидываю, в пределах первых десятков. Или меньше?
В общем, может быть всё же остановимся на варианте приватной передачи мне сырых сканов? Если я какой-либо скан сочту непригодным для обработки, я Вам об этом сообщу, в разумные сроки, и вы сможете выложить его в надежде на обработку кем-то ещё. Т.е. вы ничего не теряете.
------
Касательно СканТейлора и картинок.
Пожалуйста, не надо высылать мне "полуфабрикаты" для обработки. Практика показывает, кем-то предварительно обработанные сканы могут как сильно облегчить мою задачу, так и строго наоборот.
Я всегда готов скачать сделанные Вами полуфабрикаты (у меня быстрый интернет) и дать любые консультации, но для продакшена лучше давать мне совсем "сырые" сканы. Дело в том, что я использую СканТейлор только для обрезки полей и устранения перекосов. Потом сохраняю в серое/цветное. А преобразование в черно-белое и вообще доводку, я делаю на другом ПО и по сильно ресурсоемким алгоритмам. Достаточно сказать, что у меня в коридоре на антресоли стоит довольно мощный компьютер (4 ядра, 3.4 Гц, 8 Гб). Компьютер "голый", без монитора и клавиатуры, и работает круглосуточно. Именно на нем я осуществляю конвертацию сканов. И именно поэтому из Ваших фотографий получаются такие неплохие DJVU. Например, последняя книжка "К семидесятилетию Сталина..." считалась часов 8. СканТейлор так обрабатывать не умеет.

По картинкам скажу в следующем комментарии. Там всё непросто.

Reply

ivanstor January 24 2012, 06:46:26 UTC
Теперь конкретно по картинкам. Ни в одном из сделанных мною сканов я не использовал для разделения картинок СканТейлор. С картинками он работает очень неважно. Но даже если его использовать для выделения картинок, нужно сначала, до СканТейлора, убрать у них типографский растр. Иначе неизбежна их порча при исправлении перекосов СканТейлором.
Что это за типографский растр, почему его нужно убирать и как это сделать Вы можете gjlhj,yj почитать здесь. Это сайт лучшего средства для удаления типографского растра из сканов - плагина Descreen (для фотошопа).

Кратко, если не удалить типографский растр, то при последующих поворотах (особенно на маленький угол) и изменении размеров картинок, на них возникает характерные дефекты в виде наклонных полос, регулярно расположенных пятен и просто изображение выглядит "грязно". Причем при сканировании в низких разрешениях, примерно 300 dpi и меньше, все эти дефекты могут появиться сразу во время сканирования и хорошо видны на сырых сканах. Следует учесть, что эти дефекты возникают не всегда и выглядеть могут по разному. Фактически, это результат интерференции двух регулярных структур, т.е. муар.

С размерами ситуация следующая.
Из-за типографского растра картинки нужно сканировать в высоком разрешении, от 600dpi. Но для конечного результата, книги в DJVU или PDF, такое разрешение не нужно и полностью бессмысленно! Наоборот, нужно уменьшить картинки до размеров, соответствующих сканированию в 150-200 dpi, причем потерь в деталях не будет.
Т.е. после сканирования в 600dpi и удаления растра, можно и нужно уменьшить картинку в 3-4 раза по линейным размерам. Поскольку размер файла картинки пропорционален, в первом приближении, её площади, т.е. квадрату линейных размеров - экономия получится очень большая.
Но обратите внимание. Тест уменьшать до 150-200 dpi нельзя. Наоборот, мы тестовые страницы (без картинок) сканируем в 300 dpi и потом увеличиваем в два раза, до 600 dpi.
Поэтому если на странице одновременно есть текст и полутоновая картинка, то применяют следующую последовательность действий:
1) Сначала удаляют типографский растр на картинках. При этом текст не должен быть затронут фильтром, поскольку фильтр снижает его четкость. Т.е. нужно выделить картинки и только потом сделать descreen. Это нужно делать до любых других операций. Можно, однако, поворачивать картинки на угол, кратный 90° - это не помешает удалению растра. Но на любой другой угол поворачивать нельзя.
2) Потом все сканы засовываем в СканТейлор. Если надо, разрезаем развороты, обрезаем, выравниваем, устанавливаем поля.
3) Дальше есть такие варианты:
3.1) Выделяем картинки в СканТейлоре, в нем же бинаризуем текст. Потом, с помощью утилиты ST split разделяем картинки и текст и программой DjVu Imager кодируем всё в djvu. Я не пользуюсь этим способом.
3.2) Картинки разделяем Сканкромсатором и потом кодируем в DjVu скриптом в комстроке. Я редко, но пользуюсь этим способом.
3.3) Картинки разделяем в ФотоШопе. Для этого у меня есть набор action's, которые сильно убыстряют процесс. Бинаризацию делаю тоже набором action's ФотоШопе или, если скан плохого качества, скриптом в комстроке с помощью других программ. Потом пакую в DjVu, как в варианте 3.2.
Вопросы?

Reply

vas_s_al January 24 2012, 12:03:09 UTC
Эм...
Понятно, что всё несколько сложнее, чем я представлял.
С картинками понятно.
Со степенью готовности сканов - тоже.

1) Скажите, почему вы не пользуетесь вариантом 3.1. Он кажется самым простым и про него написано на сайтах.

2) Если картинок в книжке нет, достаточно ли, на ваш взгляд, стандартной процедуры СканТейлор - сборка в DjVu? Почему вы не пользуетесь бинаризацией в СканТейлоре?

Reply

ivanstor January 28 2012, 23:42:34 UTC
Появилось время, отвечаю на вопросы.

1) Скажите, почему вы не пользуетесь вариантом 3.1. Он кажется самым простым и про него написано на сайтах.
Потому, что СканТейлор не очень хорошо автоматически выделяет картинки. Всё равно приходится каждую просматривать и часто вручную подправлять. А последнее в СканТейлоре делать неудобно.
Потом запускать ST Split, что-то там настраивать... В общем не получается экономии времени. Хотя если сканы хорошие, а картинки контрастные по отношению к тексту, можно пользоваться и СканТейлором. Тут надо каждый раз решать с конкретным сканом. С накоплением опыта, становится ясно с одного взгляда - будет СканТейлор работать на этом скане или нет.

2) Если картинок в книжке нет, достаточно ли, на ваш взгляд, стандартной процедуры СканТейлор - сборка в DjVu? Почему вы не пользуетесь бинаризацией в СканТейлоре?
Тут такое дело. Авторы спроектировали СканТейлор делая упор на максимальной простоте использования. Пользоваться действительно просто, но при этом пришлось делать много компромиссных решений. В частности бинаризацию плохих сканов, например Ваших фотографий, СканТейлор делает, как правило, не очень хорошо, а хорошие сканы он делает хорошо, но долго.
Поэтому я и пользуюсь для бинаризации другой программой.
Однако если сканы нормальные, со сканера, не испорчены сжатием в JPEG, вполне можно пользоваться для бинаризации СканТейлором. Тут опять "практика - критерий истины" :-)

Reply


Leave a comment

Up