Гигантская база исторических изображений в Интернете: lirik

lirik_mc

Гигантская база исторических изображений в Интернете

Mar 30, 2015 20:44

Оригинал взят у philologist в Гигантская база исторических изображений в Интернете
Американский исследователь создает гигантскую базу данных из 12 миллионов исторических изображений, предоставляя возможность пользоваться ей по своему усмотрению любому желающему.

К этому моменту Калев Литару выложил 2,6 млн изображений Нажать в социальную сеть Flickr. Благодаря автоматически проставляемым ярлыкам база данных позволяет проводить поиск по всем картинкам. Фотографии и рисунки взяты из более чем 600 млн книжных страниц, отсканированных в библиотеках организацией Internet Archive. До сего дня получить доступ к подобным изображениям было довольно затруднительно.

Как говорит Литару, до сих процесс оцифровывания концентрировался в основном на текстах и игнорировал изображения. "Все эти годы все библиотеки оцифровывали свои книги, однако их выкладывали в формате PDF или текстовых файлов с возможностью поиска по ним, - рассказал он в интервью Би-би-си. - Они сосредотачивались на книгах как на массивах слов. Мы же видоизменяем этот подход". "Погружаясь на полтысячелетия в историю, удивительно наблюдать весь набор визуальных образов и как изображение предметов менялось с течением времени", - признается ученый. По словам Литару, большинство иллюстраций, сохранившихся в книгах, уже не найти ни в одной галерее в мире, поскольку оригиналы давным-давно утрачены. Выкладываемые на Flickr изображения охватывают период с 1500 до 1922 года, то есть до времени, с которого начинаются ограничения в связи с авторскими правами.

Калев Литару начал работу над своим проектом во время изучения технологии коммуникаций в Джорджтаунском университете в Вашингтоне по программе, спонсируемой интернет-гигантом Yahoo, которому принадлежит фотохостинг Flickr. Для достижения своей цели Литару сам разработал программное обеспечение, чтобы видоизменить тот способ, которым книги оцифровывались первоначально. Internet Archive ранее пользовалась программой оптического распознавания символов для анализа каждой из 600 млн отсканированных книжных страниц - чтобы перевести изображение каждого слова в электронный текст, пригодный для поисковых систем.

В качестве составной части процесса программа определяла, какая часть страницы содержала изображение, для того чтобы пропустить ее. Написанный Литару программный код использовал эту информацию, повторно обращаясь к оригинальным сканам, - на этот раз уже для того, чтобы выделить ранее отвергнутые фрагменты и сохранить их как картинку в формате JPG. Программа также автоматически копировала подпись, сопровождающую каждое изображение, если она была, а также абзацы книжного текста, непосредственно предшествующие и идущие сразу вслед за иллюстрацией. Каждый сформированный таким образом JPG-файл с сопутствующим текстом выкладывался после этого на отдельную страницу во Flickr, давая возможность пользователям вволю копаться в гигантском каталоге при помощи поиска по сайту.

По словам Литару, путешествие сквозь старинные изображения оставляет незабываемые ощущения: "Это одно из прекраснейших занятий. Наберите, например, в поиске слово "телефон", и вы увидите, что на самых первых картинках изображены бизнесмены, в большинстве своем это мужчины. Затем вы увидите, как постепенно все больше превращается в устройство для поддержания связи между близкими людьми". Еще один пример такого развития, по словам ученого, - это железная дорога. "Самые первые образы, связанные с ней, повествуют об инновациях и прогрессе, который должен был изменить мир. Затем вы наблюдаете ее эволюцию, пока она не превращается в часть нашей повседневной жизни".

Архивные работники говорят, что весьма впечатлены этим проектом. "Обнаружение картинок внутри текста и снабжение тегами обширных коллекций изображений - невероятно трудное дело, - признается старший архивариус Университета Кембриджа доктор Алисон Перн. - Это очень умный способ обеспечить одновременно и количество, и возможность для поиска. И замечательно, что это доступно бесплатно и для для всех".

В амбициозных планах Литару - связать свой проект с самой известной энциклопедией в интернете. Он намерен заняться этим в следующем году, как только завершит работу над проектом. По его словам, он хотел бы, чтобы этими картинками были проиллюстрированы статьи в Википедии. "Возьмите наугад любую статью об историческом событии, и есть большие шансы, что вы найдете в этой коллекции картинку, которая так или иначе связана с этим событием или с местом, где оно произошло, - говорит исследователь. - Возможности обогатить их таким образом были бы колоссальными".

Он также собирается предоставить исходный код своей программы для пользования всем желающим.

"Любая библиотека могла бы воспроизвести этот процесс у себя, - объясняет он. - На самом деле, я очень надеюсь, что библиотеки по всему миру воспользуются подобным процессом для своих оцифрованных книг, чтобы неуклонно расширять эту вселенную изображений".

http://www.bbc.co.uk/russian/science/2014/08/140829_internet_digital_images_archive.shtml

история, книги, архив, искусство