Современные поисковые операторы

Feb 27, 2010 19:05

Яндекс недавно вроде как обновил язык запросов.

Ох.

Сущность изменений точно охарактеризовали в тамошних комментах как «поменяли равно на двоеточие». А весь сыр-бор, подозреваю, только ради того, чтобы под шумок выбросить минус. В любом случае, за обновление языка запросов Яндекс получает тройку с минусом. Их понимание, кто и зачем его использует, застряло где-то на уровне пятилетней давности. (Говорю как человек, побывавший по ту сторону поисковых запросов и благополучно вернувшийся.)

В реальности из всего этого зоопарка в 25 строк реально для поиска используются штук шесть: поиск по сайту, исключение слова из документа, ИЛИ, поиск цитат (кавычки), поиск по дате создания документа, поиск синонимов (aka «поиск с учетом расстояния»).

Перспективы «ИЛИ», кавычек и оператора поиска с расстоянием, в общем, никудышные. Основные автозамены (ну там, 'яндекс' <=> 'yandex', 'НИИ' <=> 'научно-исследовательский институт') оба поисковика давно сами умеют. За цитаты из книг уже отвечает отдельный колдунщик, осталось его на тексты песен натравить. Поиск дубликатов документа ― тоже лучше отдельным сервисом реализовать. Ну и для поиска синонимов тоже создать отдельный сервис, сразу показывающий все варианты слов и их частотное распределение.

Остались три полезных возможности. Две из них Яндекс убил реализацией.

1. Есть такая очень полезная вещь ― поиск по сайту. Обычно быстрее и проще поискать по сайту через Гугль, чем разбираться с запутанной структурой сайта или пользоваться его внутренним поиском (часто неадекватным, с алгоритмами поиска заведомо хуже, чем у «больших» поисковиков, с непривычным дизайном и часто отсутствующими сниппетами ― вдобавок, еще сам внутренний поиск предстоит найти).

Яндекс эту возможность благополучно угробил: выдает только один результат и заставляет при каждом запросе нажимать «еще с сайта». Нормальные люди пожали плечами и продолжили пользоваться Гуглем.

А надо всего лишь (ау, в Яндексе, слышите?) разворачивать выдачу сразу. Вот так.

2. Есть еще полезная вещь ― поиск по дате создания документа. Используется, чтобы получить срез интернета на определенную дату: что думали про Путина до 1999 г., какие фичи обещали в STALKER'е каждый год, когда возник какой-нибудь мем, что рассказывали про клуб «Хромая лошадь» до известных событий.

Тут Яндекс может гордиться: с этой возможностью он облажался ровно так же, как и Гугль. Оба поисковика, во-первых, доверяют дате изменения страницы на сервере (куда часто пишут полную ересь), во-вторых, ищут по текущей версии страницы. А что толку от того, что страница про Путина была создана в 1996 году, если ее обновили не далее как позавчера?

Как надо. Во-первых, учитывать не дату последнего обновления, а дату создания страницы. Во-вторых, брать в качестве даты создания только дату первого попадания в индекс. В-третьих ― господи, такая элементарная и ненапряжная вещь ― сохранять первую версию документа (заодно и вполне себе Веб.Архив получится, что само по себе ценно) и, если пользователь задействует поиск по датам, искать только по ним.

P.S. Третья и последняя полезная возможность языка запросов ― исключение слова из документа. И тут поменяли: было '-магазин', станет '~~ магазин' (формально, оно было и раньше, только о нем мало кто знал). Тоже апдейт вряд ли добавит популярности использования.
P.P.S. В пост призываются iseg и anatolix, куда же без этого. Иначе опять сгинет.
Previous post Next post
Up