Напишу о вчерашнем скандале. Весьма скользкая тема, поэтому лишний раз напомню, что мой блог отражает мое личное мнение, вовсе не обязательно совпадающее с официальной позицией моего работодателя. Также заявляю, что все глупости - мои личные, а все умные мысли принадлежат коллегам.
Стоит сразу предупредить, что "большие ребята" до сих пор спорят между собой о том, как всю эту историю воспринимать. При этом многие люди, разбирающиеся в проблеме куда как меньше, уверены, что им-то всё понятно. Я не хочу ругаться
словами на букву Х, но после чтения некоторых комментариев возникает именно такое искушение.
Итак, Google официально обвинил Bing (конкурирующую поисковую систему, написанную в Microsoft) в том, что Bing "списывает" у него результаты. Обвинил не голословно. Решающий эксперимент, доказывающий *нечто* (что именно, мы обсудим ниже), выглядел следующим образом: инженеры Google искусственным образом модифицировали выдачу по нескольким бессмысленным словам вроде indoswiftjobinproduction, на тот момент в интернете вообще не встречавшимся, добавив на первую позицию какую-то совершенно невинную страничку (естественно, не содержавшую эти слова). Дальше несколько (порядка двадцати) сотрудников Google разошлись по домам, оттуда задали эти запросы и кликнули на (синтетические) первые результаты. Сразу несколько комментаторов этот момент почему-то пропустили: в заявлении Google недвусмысленно говорилось, что на результат они кликали. Это важно (почему - ниже). Делалось всё это при помощи Microsoft Internet Explorer со включенными настройками и дополнениями, позволяющими браузеру отправлять в Microsoft данные о посещенных сайтах, не нарушая при этом пользовательских соглашений.
Через две недели по некоторым из этих запросов ровно те же результаты появились в выдаче Bing, что и позволило Google сделать свое заявление.
Что, предположительно, происходит: при переходе (клике) на определенную страничку или встроенная фича браузера под названием Suggested Sites, или Bing Toolbar передает в Microsoft информацию, что на такую-то страничку пользователь пришел по такой-то ссылке. Пока что это совершенно нормальное поведение, оно описано в пользовательском соглашении, и позволяет реализовать некоторые фичи браузера/тулбара, без этого невозможные. Тот факт, что сотрудники Google на результаты кликали, позволяет утверждать, что собственно поисковую выдачу браузер не парсил (если бы это было не так, вряд ли Google отказал бы себе в удовольствии поставить "некликающий" эксперимент, после чего иметь неплохие шансы засудить Microsoft, в отличие от текущей ситуации).
В Microsoft полученные данные обрабатывались, и, если referrer указывал на страницу результатов поиска Google, сохранялись в виде "мы знаем, что по такому-то запросу Google показал такую-то страничку, и пользователь на неё кликнул", после чего начинали влиять на ранжирование результатов в Bing. А вот это уже выглядит очень некрасиво, правда? К счастью, всё закончилось хорошо, Bing получил отличный щелчок по носу, силы Добра наказали силы Зла (пусть не юридически, но хотя бы публично унизив), и т.п., да?
К сожалению, это далеко не конец истории.
Представим на секунду, что все клики во всех поисковиках нам известны. Как можно было бы их использовать?
Способ А) "Если мы знаем, что по этому запросу наша выдача плохая, давайте добавим в неё кликабельные результаты из выдачи конкурентов по тому же запросу". Технически это совершенно элементарно, и автоматически затыкает все "дырки" и ошибки с полнотой индекса, синонимами, опечатками, результатами, переведенными с других языков, и т.д. и т.п.
Способ Б) Предположим, мы используем какие-то пользовательские факторы ранжирования в работе своего поисковика. Для решения вопроса о том, как упорядочить первые 20 результатов, мы считаем эти пользовательские данные не только по данным о поведении "своих" пользователей, но и по данным о поведении пользователей конкурентов.
Я придерживаюсь следующей позиции: способ А - нечестный и ухудшает мир, тогда как способ Б - абсолютно честный и мир улучшает.
Почему способ А некорректен? Казалось бы, если все так начнут поступать, кому станет хуже от такого поведения - пользователям, в целом, становится только лучше? Дело в том, что в долгосрочной перспективе это убьет всякую конкуренцию между поисковиками в таких важных областях, как исправление опечаток, понимание запроса (синонимы, переформулировки), правильные алгоритмы обхода поисковыми роботами интернета, умение не банить кого не надо, и т.п. Становится не очень осмысленно во всё это вкладываться - зачем, если можно вместо этого всё "списать у соседа"? В итоге через некоторое время поиск ухудшится у всех.
Теперь о том, почему, если все начнут активно использовать способ Б, поиск не только не ухудшится, а совсем даже наоборот. Дело в том, что сейчас web-поиск - индустрия, очень тяготеющая к установлению монополии. Если в поисковике А ищут 50% пользователей, а в поисковике Б - только 10%, то у поисковика А впятеро больше данных о пользовательском поведении. Это очень серьезный гандикап, фундаментально влияющий на качество поиска, практически непреодолимый. Что еще хуже, чтобы запустить новый поисковик, которым прямо сейчас ищут 0% пользователей, нужно... нужно что? Я даже не представляю. Можно быть семи пядей во лбу, собрать супер-команду, написать идеальный код, придумать какие-нибудь новые мега-фичи (вроде социального поиска), но отыграть существующую безумную фору это вряд ли поможет. Еще раз - не потому, что вы хуже умеете искать; вы можете при прочих равных условиях искать гораздо лучше, вот только "невидимая рука рынка" этого не поймет, потому что этих "прочих равных условий" у вас никогда не будет. Таким образом, повсеместное использование способа Б улучшит качество поиска у всех, и одновременно усилит содержательную конкуренцию. Хорошо? Конечно, хорошо!
Неоднозначность вчерашнего скандала состоит в том, что:
1) В Microsoft использовали и не А и не Б, а нечто среднее между ними.
2) Эксперимент, проведенный Google фактически проверял не то, "этичный" или "неэтичный" вариант поведения имеет место, а то, влияют ли данные о переходах с других поисковиков на полноту индекса Bing (а не только на ранжирование). Он очевидно свидетельствует о том, что да, влияют; к сожалению, это совсем не то, что на самом деле хотелось бы знать.
3) Заявления Google содержат крайне двусмысленные утверждения. Разумеется, их полностью устроила бы ситуация, при которой публика будет считать аморальным вообще любое использование пользовательских данных, собранных из иных источников, нежели логи серверов поисковой системы, поскольку такая "конвенция" сделала бы их "вечной монополией". В итоге Singhal говорит, например, следующее: "The PageRank feature sends back URLs, but we’ve never used those URLs or data to put any results on Google’s results page. We do not do that, and we will not do that". Строго говоря, эти слова можно понять так, что они будут правдивыми (смотря что понимать под "put any results" и под "that"), но, как мне кажется, для 99% людей они звучат как "мы не используем в ранжировании данные, собираемые Хромом и тулбаром", что совсем уж неправда.
Всё это не радует и не даёт возможность по итогам однозначно зачислить Google в "силы Добра", а Microsoft в "силы Зла".
As a sidenote, хотелось бы отметить, что маркетинг и вообще организационная структура Google невероятно круты; я не знаю, в какой другой компании смогли бы задумать, провести и идеально обыграть подобную "спецоперацию", правильно выдержав все сроки, подобрав нужные скриншоты, выверив тексты и содержание заявлений и т.п., чтобы произвести подобный ошеломляющий эффект. Во всяком случае, не в Microsoft, судя по их запоздалым и "беззубым" ответам.
Ссылка для самостоятельного изучения и отслеживания развития всей этой истории (англ.):
http://searchengineland.com/google-bing-is-cheating-copying-our-search-results-62914