Черный-черный индекс

Feb 26, 2009 11:24

Как известно, часть информации в интернете не индексируется поисковыми машинами. С помощью тегов noindex/nofollow и файла robots.txt некоторые страницы исключаются из баз поисковиков ( Read more... )

поиск, идеи

Leave a comment

Comments 7

koudesnik February 26 2009, 09:39:06 UTC
Не думаю что много интересных страниц закрытых через noindex/nofollow и файла robots.txt. Их обычно по делу закрывают. Так что вряд ли поисковик по таким страницам будет особо интересен.
Но неиндексируемого контента в сети действительно очень много. Называется deep web. То что за веб-формами (а кролеры заполнять формы не умеют). Но сколько такого контента не ясно - от одного до сотней размера индексируемой части веба

Reply

alsafr February 26 2009, 10:22:45 UTC
>> Не думаю что много интересных страниц закрытых через noindex/nofollow и файла robots.txt. Их обычно по делу закрывают.

Согласен. Собственно, описанный поисковик интересен только как мысленный эксперимент.

>> Называется deep web

Некоторые его даже пытаются индексировать... Но это уже немного не то, не "пиратский" поиск:)

Reply

(The comment has been removed)

lpauzner March 28 2009, 12:21:39 UTC
Не совсем так. Есть по крайней мере одно важное исключение - livejournal.com

Я знаю ряд журналов моих старых офлайновых друзей которые закрылись от индексирования роботами, хотя и в открытом доступе. Это сознательное решение авторов, и попытка его обойти снизит карму поисковику и возможно приведет к изменению некоторых журналов.

Вспомнилась одна аналогия. Когда-то давно-давно в Яндексе был сделан "семейный поиск" - был составлен файл со списком нецензурных слов и их вариантов (более 500 слов!), и все страницы на которых встречалось хоть одно из таких слов - удалялись из выдачи семейного поиска. Сотрудники время от времени добавляли слова в файл;) В некоторый момент файл был послан по почте одному весьма известному в Рунете человеку, и вернулся пополненным некоторыми важными словоформами, и комментарием - а не сделать ли поиск наоборот, ТОЛЬКО по тем страницам на которых присутствует хотя бы одно веское слово?

Reply


enternet February 26 2009, 09:45:06 UTC
С правовой точки зрения скорее всего всё нормально. Но:
1) Может такое уже есть?
2) Закрывают не только интересное, закрывают также и бесполезное или непригодное для индексации. Так что объем закрытого может оказаться очень велик.

Reply

alsafr February 26 2009, 10:25:01 UTC
>> Закрывают не только интересное, закрывают также и бесполезное или непригодное для индексации.

Подозреваю, что отношение интересного к бесполезному в закрытом вэбе стремится к 0.

Reply


dp_maxime February 27 2009, 11:30:03 UTC
Нет там ничего интересного (ну почти, за исключением клинических случаев бото-боязни веб-мастеров), а вот мусору там в разы порядков больше.

Плюс чаще всего закрывают скрипты, которые работают с юзером в интерактиве и несут полезного малую толику, ежели вообще несут, а вот сервер такие запросы могут напрягать конкретно. Как итог, такой поисковик скоро окажется в листах "забань и передай другому забанить".

Reply

alsafr February 27 2009, 13:21:47 UTC
>> Нет там ничего интересного (ну почти, за исключением клинических случаев бото-боязни веб-мастеров), а вот мусору там в разы порядков больше.

Ну да, кажется, что все комментаторы в этом сходятся.

>> Как итог, такой поисковик скоро окажется в листах "забань и передай другому забанить".

Я бы забанил)

Reply


Leave a comment

Up