Историки будущего наверняка захотят понять, как зародилась и жила World Wide Web. Какие методы будут в их распоряжении?
Многие из нас порождают больше данных, чем способны контролировать: руки никак не дойдут до того, чтобы разложить все эти бесконечные фотографии по альбомам содержимое жестких дисков в жутком беспорядке Интернет с его бессистемностью и анонимностью выглядит не лучше.
Все эти HTML, MP3- и JPEG-файлы, составляющие основу современной Всемирной паутины, возможно, останутся читаемыми в течение очень долгого времени. Но определение их первоначального происхождения и подлинности - незаурядная задача, так как данные часто дублируется, редактируются, аннотируются и изменяются.
Для того чтоб защитить наши файлы, мы, как правило, создаем резервные копии, отправляем их сами себе по электронной почте или размещаем в Интернете. Файлы также проходят через «руки» многих людей. Все эти действия вносят в них изменения, не видимые невооруженным глазом. Интернет-археологам они сослужат двойную службу: с одной точки зрения, тем самым они получат ценную информацию про то что распространялись данные с другой - будет практически невозможно установить, кто создал тот или иной файл.
Один из возможных способов выявления истины - хеширование (hashing): этот математический метод даёт возможность представить крупный массив данных в виде маленького («хеш-значение»), что облегчает сравнение файлов. Однако, даже незначительные изменения в исходных данных приводят к появлению совсем другого хеш-значения, так что связь между копиями увидеть трудно.
Можно разбить файлы на сегменты и присвоить каждому отдельное хеш-значение - тогда станет ясно, что если два файла состоят в основном из одинаковых сегментов, то они связаны между собой. Увы, в случае некоторых типов файлов этот метод работает не очень хорошо. К примеру небольшое сжатие изображения не сильно повлияет на его внешний вид, но хеш-значение изменится существенно.
А как быть с текстами? Интернет переполнен анонимными комментариями, обновлениями статуса и сообщениями в блогах - как найти авторов? Прежде всего можно воспользоваться старым добрым способом: проанализировать словарный запас, длину предложений, грамматические структуры, ошибки. Исследователи из Национального института вычислительной техники и автоматизации в Гренобле (Франция) утверждают, что можно определить юзера по одним только его никам.
С больше всего простой системой анализа можно познакомиться на специальных сайтах - и заодно выяснить, стиль какого писателя напоминает ваша манера изъясняться. По правде говоря, есть проблема: если вы введете текст известного литератора, машина за редким исключением не сможет угадать, чьему перу он принадлежит.
Другой подход - семантический анализ. К примеру этим занимается Аарон Цинман из Массачусетского технологического института (USA). Он создал программу Defuse, которая определяет, насколько запись в анонимном блоге соответствует общественным ценностям. Понятное дело, это всего лишь попытка оценки, и у разных программ итоги будут совершенно разными.
Так как же быть историкам будущего? Более всего, следует признать, что, несмотря на обилие данных, специалистам предстоит все так же собирать нашу жизнь по кусочкам и обрывкам.