Sep 29, 2008 13:38
Поисковые системы состоят из пяти отдельных программных компонент:
spider (паук): браузероподобная программа, которая скачивает веб-страницы.
crawler : «путешествующий» паук, который автоматически идет по всем ссылкам, найденным на странице.
indexer (индексатор): «слепая» программа, которая анализирует веб-страницы, скаченные пауками.
the database (база данных): хранилище скаченных и обработанных страниц.
search engine results engine (система выдачи результатов): извлекает результаты поиска из базы данных.
Spider:
Паук - это программа, которая скачивает веб-страницы. Он работает точно как ваш браузер, когды вы соединяетесь с веб-сайтом и загружаете страницу. Паук не имеет никаких визуальных компонент. То же действие (скачивание) вы можете наблюдать, когда просматриваете некоторую страницу и когда выбираете «просмотр HTML-кода» в своем браузере.
Crawler:
Как и паук скачивает страницы, он может «раздеть» страницу и найти все ссылки. Это его задача - определять, куда дальше должен идти паук, основываясь на ссылках или исходя из заранее заданного списка адресов.
Indexer:
Индексатор разбирает страницу на различные ее части и анализирует их. Элементы типа заголовков страниц, заголовков, ссылок, текста, структурных элементов, элементов BOLD, ITALIC и других стилевых частей страницы вычленяются и анализируются.
Database:
База данных - это хранилище всех данных, которые поисковая система скачивает и анализирует. Это часто требует огромных ресурсов.
Search Engine Results Engine:
О, самое сердце зверя. Именно система выдачи результатов решает, какие страницы удовлетворяют запросу пользователя. Это та часть поисковой системы, с который вы имеете дело, осуществляя поиск.
Когда пользователь вводит ключевое слово и делает поиск, поисковая система отбирает результаты на основании постоянно меняющихся критериев. Алгоритмом называется метод, по которому она принимает решение. Профессиональные оптимизаторы (SEO) иногда употребляют термин «algos» - это и есть то, о чем мы говорим.
Не смотря на то, что поисковые системы сильно изменились, большинство до сих пор отбирают результаты поиска на основании примерно следующих критериев:
Title (заголовок): Присутствует ли ключевое слово в заголовке?
Domain/URL (Домен/адрес): Присутствует ли ключевое слово в имени домена или в адресе страницы?
Style (стиль): Жирный (STRONG или B), Курсив (EM или I), Заголовки HEAD: если место на странице, где ключевое слово использовано в жирных, курсивных или Hx (H1, H2,…) текстовых заголовках?
Density (плотность): Как часто ключевое слово употреблено на странице? Количество ключевых слов относительно текста страницы называется плотностью ключевого слова.
MetaInformation (мета данные): Хотя многие отрицают, некорые поисковые системы до сих пор читают мета ключевые слова (meta keywords) и мета описания (meta description).
Outbound Links (ссылки наружу): На кого есть ссылки на странице и встречается ли ключевое слово в тесте ссылки?
Inbound Links (внешние ссылки): Кто еще в Интернет имеет ссылку на данный сайт? Каков текст ссылки? Это называется «внестраничный» критерий, потому что автор страницы не всегда может им управлять.
Insite Links (ссылки внутри страницы): На какие еще страницы данного сайта содержит ссылки эта страница?
Как видите, поисковой системе необходимо делать множество уточняющих запросов, используя скаченную страницу целиком.
Это сокращенное описания функционирования поисковой системы.
не для тугодумов! поиковые системы,
как они работают