Originally posted by
habrahabr at
FAQ по утечке текстов SMS с сайта «Мегафона»
Феерическая история, ставшая сегодня самой популярной новостью дня в сети, вызывает немало кривотолков. Даже люди, близкие к веб-технологиям, не всегда адекватно оценивают произошедшее, что уж говорить о прочей сетевой общественности, часть которой уже объявила случившееся вирусной рекламой. Я постараюсь развеять туман теории заговора в форме ответов на задававшиеся в комментариях вопросы.
В: Как вдруг поисковик получил доступ к текстам SMS?
О: Да они всегда были всем доступны, by design. Напомню, что речь идёт об анонимной отправке SMS с сайта. Разумеется, для этого не надо быть абонентом «Мегафона», и не требуется регистрация на портале - в этом прелесть услуги, особенно когда вам дорога каждая секунда. Однако снабдить посетителя минимальными удобствами разработчики не поленились: для каждой попытки отправки генерируется страница со случайным адресом, на которой отображается текст SMS и статус её доставки. Вот её-то и может прочитать кто угодно, включая роботов.
В: Разве нет возможности ограничить доступность этих страниц, не осложняя жизнь пользователей?
О: Разумеется, есть. Вот лишь самые очевидные: привязка к сессионной cookie в браузере, сильное ограничение времени жизни страницы и наконец, robots.txt, запрещающий индексацию этих страниц поисковиками. Файл
robots.txt был добавлен лишь в ходе сегодняшнего экстренного латания дыр, что подтверждается
официальным ответом «Яндекса». Почему об этом не задумались разработчики? У меня есть теория на этот счёт: раздолбайство :)
В: А почему же Google ничего не видит?
О: Для того, чтобы проиндексировать страницы, надо сначала о них узнать. Как правило, поисковики переходят на новые страницы по ссылкам с уже известных им страниц, каковых в распоряжении Google не оказалось. Впрочем, несколько страниц он всё же проиндексировал, просто на фоне «Яндекса» получилось не столь эффектно.
В: Но как же «Яндекс» их нашёл?
О: Это же «Яндекс», найдётся всё. Наиболее правдоподобная версия: установленный на сайте код
«Яндекс.Метрики». Заметая следы В ходе аварийных работ «Мегафон» избавился и от него, но в данный момент в Google ещё доступен
кэш от 5 июля, где он присутствует. Адреса всех посещённых на сервисе страниц становились известны «Яндексу» - в этом принцип работы «Метрики». Любопытно, что присутствовал там и код Google Analytics, но поисковики по-разному распорядились получаемой информацией. Я бы не назвал это фэйлом «Мегафона» - имело место нормальное использование хороших инструментов. А для сокрытия непубличных данных, повторюсь, надо использовать robots.txt, привязку сессии к браузеру, авторизацию на сайте и другие методы.
В: А почему так мало сообщений проиндексировано?
О: Для начала напомню, что это лишь сообщения, отправленные с сайта, их оттуда не миллионы посылается, как с телефонов. Теперь кое-что о поисковиках. «Яндекс» никогда не пытается выкачать сайт целиком, если счёт страниц идёт на десятки и сотни тысяч, и если только мы не говорим о высокоцитируемой «Википедии». Страницы скачивались постепенно, выбираясь из переполненной очереди непредсказуемым образом, так что к моменту захода робота они уже и «Мегафоном» могли быть удалены. Какая часть сообщений в итоге попадала на поиск, не ясно, но точно небольшая. Ну а старые страницы просто уходили из индекса при очередных обновлениях кэша - мусор на поиске долго не живёт.
В: А что же сообщения все такие интересные? Где односложные «Ок», «Да», «Нет»? Где «Буду через 5 минут» и «Занят, перезвоню»? Почему мало транслита и много ошибок?
О: И снова есть специфика как сервиса, так и поиска. Сайтом пользуются не на бегу, он как раз для длинных SMS кстати. Отвечать с него тоже неудобно - вопрос-то в телефон пришёл. В транслите нет нужды: не влезло в одно сообщение - пиши второе, халява же. Ну и анонимность провоцирует на многое: часть этих текстов вполне может оказаться дурацкими розыгрышами и подставами. Но даже если шаблонных сообщений будет 99%, «Яндекс» покажет на первых страницах именно 1% «интересных» с его точки зрения. Так уж устроено ранжирование по запросу, ограниченному сайтом, но не содержащему текст. Цитируемость у всех страниц нулевая, поведенческие факторы тоже одинаковые, остаётся только контент: чем больше необычных (экспрессивных, ошибочных) слов, тем выше его уникальность, тем он ценнее. Всё это и сделало из поисковой выдачи филиал «Башорга».