Начитавшись литературы по оптимизаторству сайтов для поисковых систем обнаружил следующий факт - PageRank сайта зависит от наличия на сайте исходящих ссылок. Фактически по входящим ссылкам с других сайтов PageRank поступает на сайт, а по исходящим - уходит.
Получается, что для оптимизации (достижения более высокого PageRank) необходимо как-то избавиться от исходящих ссылок (что нереально для нормального ресурса) или сделать их невидимыми для поисковой системы. Этим я и занялся.
Самый удобный и простой способ - заключить все исходящие ссылки в тэги ..... Таким образом мы отучаем Гугла ходить по ссылкам. Но все ключевые слова между тоже уходят от внимания поисковика, а это совсем нехороший побочный эффект. А потому - был найден способ более красивый, через редирект на своём сайте, индексация которого закрыта в robots.txt.
Первым делом заводим на сайте директорию goto, в корне сайта создаём robots.txt, а в папке goto три файла - .htaccess, index.php и пустой redirect.log:
robots.txt
User-Agent: *
Disallow: /goto/
goto/.htaccess
Order allow,deny
Deny from all
Satisfy All
RewriteEngine On
RewriteBase /goto/
RewriteCond %{REQUEST_FILENAME} !-f
RewriteCond %{REQUEST_FILENAME} !-d
RewriteRule . /goto/index.php
goto/index.php
link1' => '
http://server1.com/software.html',
'link2' => '
http://server2.net/projects/',
'link3' => '
http://www.server3.com',
);
$s=str_replace('/goto/','',$_SERVER['REQUEST_URI']);
$s=str_replace('/','',$s); $l='';
if(isset($links[$s])) $l=$links[$s];
$t = time();
$log = date('Y.m.d H:i:s',$t)."\t".$_SERVER['REMOTE_ADDR']."\t".$l."\t".$_SERVER['HTTP_USER_AGENT'];
if ((strpos($_SERVER['HTTP_USER_AGENT'], 'Rambler') === false)
&& (strpos($_SERVER['HTTP_USER_AGENT'], 'Yandex') === false)) { // переадресация для нормальных пользователей
io_saveFile('redirect.log',"$log\n",true); //сохранить в лог
header('Location: '.$l);
} else {
io_saveFile('redirect.log',"Отловлен бот!\t".$log."\n",true); //сохранить в лог
header('Location:
http://mysite.com/'); // послать его на первую страницу
};
?>Для того, чтобы уменьшить опасность кросскриптинга, в переадресаторе заведён исчерпывающий список всех редиректов в виде ассоциативного массива - каждый раз при заведении новой внешней ссылки надо подправлять список соответствий. Теперь внешние ссылки надо писать в виде ссылка на server1.com/software.
Все честные боты, например Googlebot, которые руководствуются запретом в robots.txt, даже не заходят на редирект, а все нечестые посылаются на первую страницу сайта (это Yandex, Rambler и иже с ними).
Кросспост на
http://itecp.it-energy.ru