В рамках исторических изысканий по крейсеру «Варяг» и бою в Чемульпо захотелось написать работу о создании образа подвига в Советское время. Думаю, не будет большим секретом, что история того памятного боя имеет крайне мало общего с тем, что сейчас льется из зомбоящика, газет, книжек и вообще из граждан во всяких там уютных - иногда диву даешь, какими фантастическими подробностями обрастает морской бой при Чемульпо. Так вот решил я выяснить - а с какого момента активно начала педалироваться тема Варяга в СССР, как изменялось описание боя в СМИ, восприятие в обществе?
Для начала решил просмотреть главный печатный орган большевиков и беспартийных - газету «Правда». Правда сразу приуныл: придется просмотреть газеты за каждый год на 4 даты: 26 и 27 января, и по, новому стилю боя, 8 и 9 февраля. И так каждый год. То есть всего нужно пролистать около 200 газет, чтобы покрыть хотя бы 50 лет. При этом в замечательной Историчке, т.е. Исторической библиотеке, нельзя заказывать более 10 единиц периодической печати за раз. Стало совсем грустно.
Тут на помощь пришли инновации и модернизация, правда в их голландском исполнении. Есть такая фирма
East View Information Service (EVIS), которая создает электронные архивы всяких газет и журналов, да и не только их. Покурив травы, голландцы решили сделать электронную версию газеты «Правда» с 1912 по 1990 год, впрочем, чтобы хомячки не визжали от восторга, голландские капиталисты не забывают и про себя: доступ к их архивам (а там несколько тысяч изданий) платный, причем просят они кругленькую сумму в тысячах американских рублей. Есть, конечно, и тестовый доступ, но с частными лицами они, похоже, не хотят сотрудничать - на два моих мыла ответа так и не последовало. Решил позвонить в их московское представительство: должны же быть организации или библиотеки, где есть доступ? Оказалось, что в Москве на их архив подписано всего две библиотеки: Государственная публичная историческая библиотека, она же второй дом историков, и некая Молодежная библиотека. Итак, дело пошло - дальше звонок в Историчку, тщетные попытки объяснить про электронных архив, пока не удалось поговорить с заведующей отделом периодики - она с пол-оборота поняла, что мне нужно; сказала что, да, приезжайте, все покажем, а пока новость на сайте прикрутим.
В субботу приезжаю в Историчку, сразу иду в периодику и повтор эфира: дежурная по залу делает круглые глаза, вообще не понимает чего мне нужно, потом приходит другая дежурная, которая что-то где-то слышала про некую «базу данных «Правды», но только с 1995 года. Звонок заведующей - все проясняется, отводят к компу - работайте. Да, еще нужно записаться в журнале: кто работал, с какой целью, когда начал, когда закончил, подпись, подписка о неразглашении.
Вот так примерно выглядит дизайн архива: в стиле начала нулевых, но главное - функциональность.
Вбиваем «Варяг», задаем базу данных (еще есть «Вестник истории» и пара каких-то журналов) и диапазон: с 1912 по 1990. Всего нашлось 566 документов, т.е. страниц где якобы упоминается слово «варяг». Страницы грузятся через раз, очень медленно - возможно из-за тормознутости сервера - доступ идет через сайт Eastview.com, при этом халявы не будет - доступ привязывается к IP.
Дальше тихий ужОс. Те, кто работал с loc.gov знают, что такое хорошая электронная версия газеты: весь текст распознан и легко находятся. Вот такое мне выдал поиск по газете за 10 марта 1928 года:
…весда. хуи водагагтея, во аве«те с тм. ааяерада Оабдааа, что явдввь его дорога аагдваселагу варягу, что…
Слово варяг есть, а вот что это за хуи и куда они там водагагтеются - я не понял. Думаю, может тут проблемы с русскими символами - лезу в скан газеты и тихо фигею окончательно: качество сканов такое, что текст с трудом читаем даже при 300% увеличении. В оригинале в этом месте, где система увидела «варяг» написано: …куда полагается, но вместе с тем <не понятное слово> Саблина, что <не понятное слово> его дорога английскому <не то пороху, но точно не варягу>. В других номерах вообще наборы слешей, квадратов и других служебных символов, между которыми затесалась пара букв и слово «варяг».
Без комментариев: невычитанный OCR выдают за уже готовую доделанную работу, да и о каком OCR можно говорить, если текст газет, т.е. скан, в принципе не читаем: тут проще заказать обычную газету. «Варяг» так же легко превращается в «варите», когда в газете от идет речь об отмене запрета на прогон самогона. «Наш.корр» - тот же «варяг», когда речь идет об очередной заметке из банановых республик, даже сам Маркс становится человеком и пароходом, т.е. крейсером. Короче, халтура - работа проделана огромная (попил-откат), нехитрым подсчетом получаем, что было отсканировано почти 29 000 газет, в каждой газете от 4 до 6 страниц, но выдавать такое за OCR - как-то странно. Бывают какие-то глюки с нумерацией: за 8 февраля 1944 года две газеты с №242 и №8, а газета одна и та же. А газета за 9 февраля странным образом отсутствует. Примерно к середине 30-х гг. качество сканов становится лучше - в поиске уже находятся отдельные нормальные кусочки текста.
Система крайне странно сортирует поисковые данные, дико глючит - иногда вместо новой страницы из результатов поиска выдает вообще все упоминания, так же нельзя вернуться на последнюю прочитанную страницу. Короче, что касается юзабельности, то здесь все довольно печально.
Отмечу, что ни смотря на неудобства в работе, отсутствие OCR, электронный архив крайне помог в работе: то, на что ушел бы месяц ежедневного посещения библиотеки в режиме каменная жопа, я сделал за 3 часа. По результатам работы директору европейского представителя фирмы было отослано письмо про “a random sequence of letters, sometimes containing funny-sounding dirty slang Russian words”, “search through this "text" is totally impossible, making the digital archive not much better than the traditional "paper" copy”. И самое забавное, утром получил ответ:
Dear Mr. Podshivalov,
Thank you for your email with your evaluation of our database.
I have forwarded your email to our online publishing director and I will leave it to him to answer you further/
Thank you.
Kind regards,
Paul
Что же, посмотрим будет ли результат.