Перепост
из блога Дмитрия Петряшова (
petryashov ). Материал, я полагаю, будет полезен специалистам
Конкурентной разведки. Далее - цитата (только скриншоты я свои сделал - чтобы четче были).
В блоге
http://www.rxpblog.com/rss-select-ejected-content/ прочитал весьма интересную заметку, посвященную поиску старого контента, который не найти при помощи поисковых систем.
На первый взгляд, удаленную информацию можно найти при помощи WebArchive. Но все не так просто.
Далее- цитата из упомянутого выше блога:
"1. Его обрабатывают в промышленных масштабах.
2. Не всегда есть нужные страницы, а только главная или частично.
3. Работает не для всех сайтов.
Но в нашей схеме мы все же воспользуемся ВебАрхивом, для того чтобы как можно быстрей и точней получить бывший адрес RSS-фида. Идем по адресу
http://web.archive.org/, вбиваем адрес нашего пациента epavel.ru/blog и по ссылке
http://web.archive.org/web/*/http://epavel.ru/blog получаем доступные копии страниц этого блога.
Перейдя по ссылке
http://web.archive.org/web/20080413165303rn_1/epavel.ru/blog/ мы видим копию старого блога и справа находим ссылку на RSS-фид.
А именно
http://epavel.ru/blog/feed . Нам повезло. В этом случае мы могли бы найти легко бывший адрес фида всего двумя подстановками domain.com/RSS и domain.com/FEED без помощи вебАрхива. Но очень часто адреса фидов какие-то зашифрованные и длинные и/или используют сторонние сервисы, что делает практически невозможным угадывание адреса фида. Именно поэтому первым делом я рекомендую обращаться к вебархиву за помощью. Получили мы адрес фида. А что дальше? Он же пустой. Для того, чтобы получить содержание RSS-фида (а в данном случае и содержание блога) нам понадобится аккаунт в Google и их сервис Google Reader.
Заходим по адресу
http://www.google.com/reader , вводим свой логин и пароль и попадаем внутрь акка (это для тех кто еще не использовал гугл-читалку). И кликаем на кнопку Add a subscription:
Выскочит новое окошко, в которое мы и должны вписать найденный адрес фида и нажать кнопку Add.
Все! Нам сразу начнут поступать все тексты и фотографии из блога за всю историю его существования...".
Конец цитаты.
С блогами на Живом Журнале все обстоит еще проще, чем описано в статье, т.к. там не надо искать адрес фида. Он и так известен.