Вообще, как позже посоветовал уважаемый участник Форума бизнес-разведчиков
Vinni (а я потом сделал на основании его слов эту правку), самое простое, что можно сделать, дабы увидеть файл с запрещенными к индексации страницами - ввести URL вида
http://имя_исследуемого_сайта/robots.txt Для тех, кто не ищет легких путей и хочет, чтобы за него работал неизвестный скрипт - текст ниже. :)
Как и обещал участникам
семинара, проведенного вчера и позавчера для специалистов конкурентной разведки, на главной странице своего сайта разместил ссылку на сайт Сергея Матвеенко, где можно взять
Кнопку на панель ссылок браузера для просмотра текста файла robots.txt Тем, кто ранее не сталкивался с файлом robots.txt, хочу сказать, что это размещаемый на сайте текстовый файл, в котором перечислены страницы сайта, запрещенные владельцем для индексации поисковыми машинами. В ряде случаев такие страницы представляют интерес для специалистов конкурентной разведки. Перейдя по ссылке, вы попадете на сайт Сергея Матвеенко, где сможете взять кнопку, автоматизирующую просмотр файла robots.txt.
Надо иметь в виду, что не на всех сайтах такой файл в принципе есть. Но при посещении сайта паук поисковой машины первым делом должен проверять наличие этого файла и, если он есть, не посещать перечисленные в нем страницы. Это так называемый этический ограничитель для поисковой машины, т.к. с технической точки зрения никаких препятствий для индексации страницы нет.
Люди могут посещать такие запрещенные к индексации страницы без ограничений, поскольку доступ к ним не закрыт. Иногда некоторые из подобных страниц бывают действительно информативными.