20 лет назад. 31 марта 1991 года. Газеты не выходили

Apr 01, 2011 01:07

31 марта 1991 года было воскресенье. Газеты не выходили. Съезд народных депутатов РСФСР не работал. Наверное, что-то важное происходило в тот момент в Москве. Но даже и агентства ничего об этом последнем воскресенье марта не рассказали. Поэтому я воспользуюсь этим перерывом, чтобы посоветоваться с вами, как дальше вести этот неожиданно захвативший ( Read more... )

Leave a comment

kurdakov April 1 2011, 07:41:58 UTC
Татьяна Борисовна, наибольшие вопросы возникают с копирайтами.

Я не знаю деталей российского законодательства, но в сша - книги 70-100 лет сейчас ( зависит от года публикации ) и 50 лет газетам - т.е. не разбежишься.

Но электронные библиотеки - возможны и допустимы в рамках текущего российского законодательства.

Теперь по поводу того, как.

В принципе - если Вы не против - можно запустить crowdsourcing проект. Поглядеть, какие операции могут делать люди.

Какие операции обычно бывают.

Операция 1) - это сканирование ( сейчас как правило используют очень мощные цифровые аппараты ) - там сканирование газетной полосы - один щелчок аппарата - тут, видимо, в части помощи не особо развернешься, но газеты, возможно есть еще у кого то - поэтому если могут присылать сканы - почему бы и нет?

2) это распознование.
Вот тут можно сделать crowdsourcing тем более есть программы бесплатного распознования http://code.google.com/p/tesseract-ocr/ - теперь поддерживается и русский и http://code.google.com/p/ocropus/ и под линукс есть http://gscan2pdf.sourceforge.net/ а под windows http://vietocr.sourceforge.net/ - к сожалению полного свободного 'стека' - взял и пользуйся нет, но из упомянутых программ, тем более если чуточку подождать, пока они доварятся - можно вполне сделать инструмент для каждого желающего в т.ч. для газет - т.к. ocropus в состоянии анализировать разбивку странцы.

3) это вычитка см пример http://www.pgdp.net/c/

весь процесс можно организовать в виде проектов ( как обычные opensource проекты ).
Но поскольку здесь нет никаких особых стандартов - не буду ничего рекомендовать.

В принципе - на отдаленную перспективу - crowdsource подход может сократить время, но в начале, скорее, будет больше проблем и мороки.

Так что выбирайте.

Reply


Leave a comment

Up