Comments | crusoe: Ставлю на полку.

crusoe

Ставлю на полку.

Mar 21, 2009 13:44

Полное собрание законов Российской империи
повелением государя Николая Павловича составленное.
Собрание Первое.
С 1649 по 12 декабря 1825 года.
Санктпетербург.
Печатано в типографии II Отделения собственной Его Императорского величества Канцелярии.
1830.

Общая информация.
1.
О ценности и значимости этого свода распространяться излишне.

2.
Полный свод ( Read more... )

Leave a comment

Back to all threads

arno1251 March 21 2009, 11:41:05 UTC

о-фи-геть!!!

crusoe March 21 2009, 16:52:33 UTC

Не надо! Не делайте этого!

arno1251 March 21 2009, 17:43:45 UTC

Поздно!..

Сергей, а Вы не рассматривали вариант выставить всё это богатство не только для скачивания, но и онлайн?
Теоретически на народе.ру можно все тома выставить в DjVu-индирект, чтобы на каждую страницу каждого тома можно было сослаться отдельно. Это я предлагаю чисто умозрительно, конечно...

crusoe March 21 2009, 19:43:41 UTC

Было бы хорошо, но я совершенно не владею предметом - что такое DjVu индирект, как работает, что для этого нужно. Потом вопрос заливки - как можно побыстрее залить на народ 12 гигабайт?

arno1251 March 21 2009, 20:35:12 UTC

Да, 12 гиг - это будет совсем непросто. Если будет время,я попробую поэкспериментировать хотя бы только с 41 томом. А там видно будет.
Пример DjVu индиректа см. хотя бы http://blat1927.narod.ru/abc.htm
Гипертекстовое оглавление ведёт на соответствующую страницу, плюс с каждой из этих страниц можно листать оригинал как в обычном DjVu. И просмотр оптимизирован под Веб - каждый раз загружается только та картинка, которая нужна, а не вся книга целиком.

fad_gel March 22 2009, 11:41:50 UTC

285 Кб на страницу - все же многовато. Не уверен, что там нужно цветное кодирование.
По-моему, надо обсудить технологии. А то есть люди, которые "знают как", но мало что делают (это я про себя), и те, кто делает много, но не всегда по оптимальным технологиям.

Мог бы взять на себя обработку сканов: нарезка разворотов на страницы, выравнивание, удаление грязи. Я наловчился это делать в полуавтоматическом режиме, так что времени много не займет. И книги были бы намного легче и лучшего качества. То есть на входе -- картинка со сканера, на выходе -- обработанная картинка нужного для djvu'ирования формата и качества.

arno1251 March 22 2009, 11:55:35 UTC

Ну, особо грязи не видно, сканер-то превосходный, такая глубина... Но вообще можно бы попробовать. Конечно, 12 Гб по Сети не очень-то, легче заскочить с винчестером в сумке :)

fad_gel March 22 2009, 12:09:33 UTC

Здесь-то да (у меня не получается, выдрав картинки из djvu'ированного файла, оптимизировать их).

Я вообще про обработку картинок на этапе от сканера к Djvu. Просто мне показалось (умозрительно), что из исходных сканов можно было бы бы больше качества вытянуть, а потом ужать в Djvu как ч/б. Собственно, я свои услуги как раз на этом этапе предлагаю )

arno1251 March 22 2009, 12:14:06 UTC

Ой, не знаю. Мне интуитивно кажется, что ч/б было бы совершенно нераспознаваемо... Даже с такими высочайшими параметрами сканирования и то пары н/и, с/е, т/ш порой визуально неразличимы. А если убрать полутона?

fad_gel March 22 2009, 12:40:21 UTC

Картинки из этого djvu выдираются с параметрами 96 dpi, 256 colors. Dpi маловато будет.
Полутона нужно убирать, работая с исходными сканами, и при помощи специальных фильтров, а не просто Save as bitоnal image; тогда все н/и различаются. Я Scankromsator использую, некоторые - Corel. Фишка в том, что при такой методе точки на границе букв и фона обрабатываются иначе, чем в центре буквы. Поэтому удается вытянуть тонкие элементы: засечки, перекладины и т. д.

arno1251 March 22 2009, 13:01:24 UTC

Я всё думаю, сколько же места занимают исходные сканы. Думаю, от 180 до 250 Гб. Хорошо бы посмотреть хотя бы на десяток страниц...

fad_gel March 22 2009, 13:06:50 UTC

Да, мне тоже любопытно.
Просто будет обидно, если из этих сканов можно вытянуть больше, чем получилось, а это потеряется. Вряд ли там меньше 200 dpi было

arno1251 March 22 2009, 13:12:12 UTC

Какие 200? Посмотрите Page Info. Там чистые 600 dpi в полноцвете.

arno1251 March 22 2009, 13:10:56 UTC

Кстати говоря, судя по отсутствию в индиректе bjbz - файлов, размер словаря на каждую страницу редуцирован до нуля. То есть каждая страница несёт в себе полный набор собственных глифов. Этим и объясняется такой значительный вес страницы. С одной стороны, это неплохо, потому что полураспознанные символы замыкаются внутри одной страницы и не лезут на соседние страницы, плодя там ошибки второго рода. С другой стороны, расплата идёт за счет общего веса тома. Полагаю, что при указании словаря знаков хотя бы в 20-30 кб размер тома мог бы снизиться на 50 Мб, а всего набора на 2 Гб. Это, конечно, не основание для перегенерации всего DjVu-сета :)

fad_gel March 22 2009, 14:42:56 UTC

> Это, конечно, не основание для перегенерации всего DjVu-сета :)
Да уж...

Попробовал на кошках потренироваться. Шекспир 1854 года, высокая печать, кегель мелкий (8, наверное). Из разворота, который чуть больше одной страницы Законов, как я понимаю, 39 Кб по технологии 300 dpi grey > 600 dpi b/w получилось. Это при том что PDF хуже жмет, чем Djvu.
http://fadgel.nm.ru/0001.pdf

arno1251 March 22 2009, 17:46:03 UTC

Итак, я скачал с онайлэнда 41-й том, преобразовал его в индирект "нарезку" и залил на народ, вот сюда:
http://pszri41.narod.ru/
Прикрутил нечто вроде оглавления, кусками, полностью таблицу не составлял. В идеале она должна содержать решительно все года с 1649 по 1825. То есть на выбранный год мы попасть можем напрямую одним кликом, при этом загружается максимум 350 кб (индекс и искомая страница). Далее по страницам вперёд-назад можно гулять как по обычному DjVu файлу, опять же не загружая к себе всё, только необходимые компоненты.

Конечно, "народ.ру" - это ужасно. При массовой загрузке по FTP 10-15 процентов файлов ложатся вкривь и вкось. Приходится сравнивать каталоги, доливать недостающие и неверно загрузившиеся и т.д. День ушёл на загрузку целиком :((

Посмотрите, если идея покажется продуктивной, я закончу обвязку до конца. Принимаются также пожелания и предложения.

Back to all threads