Jan 06, 2012 15:52
Представьте, что когда-нибудь все книги оцифруют и они будут доступны в Интернете.
По всем текстам построят индекс, и они будут доступны для поиска и т.п.
Представили? Хорошо это или плохо? На первый взгляд хорошо. Однако, меня беспокоит одна проблема, попробую рассказать.
Как устроен поиск информации сейчас. Есть поисковики, они индексируют тексты, строят какие-то карты релевантности и т.п. Я не специалист в этой сфере, детали представляю в общих чертах.
Если мне нужна информация, я на некотором (условно естественном) языке определяю область, зону семантики, для поиска. Поисковик же выдает мне все, что у него по этой теме(в этой зоне) есть в порядке, гм... популярности. Ну понятно же, что те кто ищут "пластиковые окна" в 90% случаев хотят их установить. В результате, пользователь имеет выдачу, список, документов, по интересуемой теме.
Получается, что по мере развития систем поиска, по мере накапливания результатов оценки релевантности от самих ищущих... бла,бла,бла. Короче, тексты одной темы укладываются в как бы слоеный пирог. Внизу самые не популярные, назовем их редкие (редко кому нужны), вверху самые популярные (постоянно востребованные). Помимо всего прочего, на положение текста внутри пирога влияют еще и внешние воздействия в виде интернет-продвижения и т.п. ранжирование
С течением времени пирог становится просто гигантским. Можно утверждать, что начиная его "есть" сверху, до низу можно и не добраться. Как этот пирог будет развиваться со временем?
Новые тексты будут добавляться как бы вниз. Если они популярны, то стремительно подниматься вверх. Вниз же будут спускаться совсем "не востребованные" тексты, например, редкие исторические книги или научные труды. Понимаете к чему я веду?
Возможна ли такая ситуация, когда редкий, уникальный текст, будет заведомо трудно находим, потому что он не популярен?
Может ли это привести к потере такой информации навсегда?
Нет, это не значит, что его уничтожат физически. Файл с номером в несколько триллиардов будет лежать в отказоустойчивом кластере до скончания времен. Но не получится ли, что LastViewDate будет указывать на дату в десять, сто или тысячу лет назад?
В чем прелесть физического объекта книга (в данном контексте), что в библиотеке его протирают(?) от пыли и он как бы существует, хотя бы для этого протиральщика. Возможно, он прочитает или, о боже, запомнит название этой книги.
Основные вопросы:
1. реален ли описанный сценарий?
2. нужно ли что-то предпринимать для исправления такой ситуации?
Дальше по плану должна последовать дискуссия. :-)