Сначала собственно, что он пишет в
я.ру, а ниже мой ответ (к сож. я.ру не ест таких развернутых комментов, что ли)
Поскольку сегодня трое моих коллег и двое партнеров посредством телефона, почты, фейсбука и блогов сочли необходимым обратить мое внимание на труд Димы Лихачева, мне придется ответить.
1. Дима - молодец и растет как пиарщик, мы, команда Яндекс.Новостей, весь прошлый год проводившие семинары, на которых пытались рассказать всем заинтересованным, как и почему работают Я.Новости, ну и занимавшиеся в свободное от этого время улучшением сервиса, посрамлены. Снимаю шляпу.
2. Этот текст придется разобраться детально, он того заслуживает.
I. Неправда:
1) "яндекс-новости со своими партнерами ведут типо бартер - партнеры поставляют яндексу свои новости, яндекс обменивает эти новости на трафик." На самом деле, Яндекс индексирует полные тексты новостных сообщений и использует их фрагменты - заголовки и сниппеты - для формирования своих продуктов, основной из которых - сюжет. Все фрагменты снабжены гиперссылками, по которым пользователи Я.Н. могут перейти на полный материал на сайте партнера.
2) "Только вот правила этого обмена весьма и весьма спецфические". На самом деле правила, по которым наши алгоритмы формируют аннотацию (дайжест из 3-4 предложений), выбирают основные заголовки сюжета, фото и видео - достаточно простые, понятные и совершенно несекретные. О них мы и рассказывали на своих семинарах, презентации есть в открытом доступе. Если совсем грубо: главные принципы - это цитируемость источника в контексте данного события и оперативность и информативность текста.
3) " вчера яндекс слил АИФу 72,676 человек". На самом деле основной продукт Я.Н.(в том числе по трафикогенерации) содержит в среднем 24-25 ссылок на материалы разных источников (3 в аннотации, 15 в «хвосте», 2 в фото, 2-3 в видео, 2-3 в блоке аудио-материалов). Я.Н. заставляют читателя выбирать источник, из которого он, прочитав полный текст, узнает все подробности интересующего его события. Да, действительно, Виктор, многим эти подробности не нужны, но тем, кому нужны, важен и бренд, и качество текста/редактуры, и дизайн и удобство сайта и многое другое. То есть Я.Н даже при несовершенстве своих алгоритмов ранжирования заставляют пользователя делать выбор из довольно большого предложения.
4) «вот только начало одного из сюжетов». На самом деле в Я.Н. разные региональные издания АиФ считаются одним источником, поэтому на первой странице сюжета в каждом блоке не может появиться больше одного представителя какого-нибудь АиФа, сколько бы всего их сообщений не было бы в сюжете (доступных по ссылке «все сообщения»).
5) «мы не спамим, т.е. не копипастим по дюжине "новостей" на каждое топовое событие ежеминутно». На самом деле кол-во новостей на тему от источника никак не влияет на вероятность его появления на первой странице сюжета. Кроме того очень похожие сообщения (т.н. полудубликаты, которых у нас в базе автоматически детектится около 30%) вообще никак не участвуют в формировании первой страницы сюжета.
6) «у яндекс-новостей есть некоторая табель о рангах, в которой АиФ, почему-то, до сих пор в первых рядах». На самом деле в Я.Н. есть понятие общего веса источника, который автоматически рассчитывается для всех каждые 2 недели и формируется из цитируемости и оперативности - об этом мы тоже всем подробно рассказывали. Этот вес, кстати, при формировании сюжета сильно менее влиятелен, чем локальная цитируемость, другими словами, если никому не известное издание опубликовало эксклюзив, который процитировали или скопировали другие издания, его сообщение будет обязательно на первой странице сюжета, даже если его «общий вес» в Я.Н. нулевой . Так вот АиФ по этому показателю на сейчас в первой сотне, но не в первой двадцатке, Свободная Пресса - в начале третьей сотни, что очень неплохо, если учесть, что у нас больше 3-х тыс партнеров. А почему СМИ охотнее используют материалы АиФ, а не СП - каждый может придумать сам.
7) «т.е. на каждой главной странице сюжета будет по несколько аифовских спаммерских новостей». См. пункт 4)
8) «а мы, повидимому - в последних». См. пункт 6)
II. Маленькие неточности:
1) «у АИФа вообще стабильное третье место по трафику с яндекс-новостей (после РИАНа и Вестей)». На самом деле, если кто не знает, существуют довольно заметные СМИ без ливинтернетовских счетчиков, Интерфакс, ИТАР-ТАСС, НТВ, или там Ведомости с Форбсом. И они занимают очень заметное место в трафикогенерации Яндекс.Новостей
2) «Почему так - туда 73 000, нам 1 600». Первое число - общее число всех переходов на все материалы всех аифовских выпусков с Я.Н., второе число - переходы на один материал СП (переходы на все материалы ровно в 10 раз больше).
Уф, все. Дальше у Димы пошло нечто, что не предполагает комментирования и что, Виктор, я бы лично постеснялся размещать в своем дневнике, если бы он у меня был.
Все, что я написал выше, наверное, скучно и неинтересно, но если вы все-таки это осилили, я надеюсь, вы (мои коллеги, партнеры, друзья) больше не будете слать мне этих ссылок и размещать перепосты этого у себя в дневниках (не волнуйтесь, мы внимательно читаем все, что пишут Я.Новости). Если вы хотите поговорить о важных проблемах: о копипасте, влиянии крупных агрегаторов на новостное поле, о месте информационных агентств в новостном интернете, о лояльности аудитории и силе бренда, о возможности административного воздействии на недобросовестные СМИ, о неизбежности платного новостного контента, об опасности госрегулирования и ответственности СМИ за содержание комментариев на их сайтах или просто о несовершенстве Яндекс.Новостей - пожалуйста, сами, своими словами, со своим поводом. Или просто организуйте встречу, мы с удовольствием в ней примем участие.
Спасибо за терпение и понимание,
лева
Лева, привет ;)
я не пиарщик, дорогой, я программирую сайты, а анализом говна (а именно спама АИФа на яндекс-новостях) занимаюсь из здоровой любознательности - это очень любопытный феномен - самое любопытное в нем, естественно, резкое противоречие с пафосными речами Ильи (Сегаловича) о спаммерах
Т.е. вы своими "роботами", которые вырубают сайты-партнеры за на порядки более мелкие провинности (например, вырубили труд.ру на год или около того за то, что одна дура-новостница, по глупости перепостила одну новость несколько раз), а многолетнего спама АИФа в упор не видят - ставите Илью и весь яндекс в очень смешное и дурацкое положение
ну давай по пунктам:
I. Неправда: 1) "яндекс-новости со своими партнерами ведут типо бартер - партнеры поставляют яндексу свои новости, яндекс обменивает эти новости на трафик." На самом деле, ... ... ... сниппеты ... продукты ... гиперссылки ...
Лева, ты замечательно рассуждаешь как программист ;) А теперь попробуй переключиться и посмотреть на это все глазами партнера яновостей - партнеру пофик твои сниппеты и гаджеты, партнер дает вам безвоздмездно свои эксклюзивные тексты, а интерес у него - какой? Ну ответь мне? Интерес у него только один - получить от вас трафик, и естественно, получить трафик - соразмерно качеству и количеству своих текстов, а не крошки со стола спаммеров. Т.е. играть в честную игру по вашим же собственным правилам.
Так что - объяснись плиз - где тут, в том, что я написал неправда? Есть какой-то другой интерес у партнеров яновостей, кроме трафика по бартеру? Им м.б. очень интересно, что бы у тебя сниппеты получались красивые и твои пользователи были очарованы красотой твоих продуктов? Тогда убери вообще гиперссылки на партнеров - и посмотри сколько их у тебя останется ;)
Значит таки то, что я написал про бартер - не неправда? А зачем тогда такие слова? Сначала пиарщиком обозвал, потом вот неправда на совершенно справедливое замечание про бартер
2) "Только вот правила этого обмена весьма и весьма спецфические". На самом деле ... ... ... Если совсем грубо: главные принципы - это цитируемость источника в контексте данного события и оперативность и информативность текста.
Лева, я поскипал все твои программистские умные слова - т.к. зачем так много программистских умных слов - когда я привел вполне конкретный пример (и это уже не первый пример - см. тэг aif в моем ЖЖ - там куча примеров с апр 2009) - вот 12 новостей с периодичностью раз в 20 мин, раз в 10 мин, раз в минуту! И где тут, в этой безграмотной копипасте из лент информагенств, с несогласованными падежами, с бесконечными повторами "убитых человек ... охранников ... милиционеров" хоть какой-то запах информативности, цитируемости или оперативности-то?? Лева - это яндекс-рефераты! Галимые. Даже хуже, т.к. программеры я-рефератов, хотя бы озаботились согласованностью падежов.
Покажи мне хоть одного сумашедшего, кто бы процитировал хоть что-то из этого прогона? Вот наши интервью вы часто показываете в подвале "Интервью", и что самое веселое - часто со ссылкой на другой сайт - когда это просто 1:1 перепечатка нашего интервью на других ресурсах. Вот это вот - цитируемость. А безобразные спаммерские новости, которые я специально привел целиком - чтобы можно было проявить любознательность и прочитать их - никто цитировать не будет, кроме, разве что, таких же спаммеров. Плиз - выключи в себе программиста, включи обычного читателя - и попробуй это все прочитать.
(в этом, на м.в. и главный недостаток яновостей - у вас там программистов много, а журналистов - нету. Я много лет всем говорил, кто готов был слушать, что менагером яновостей должен быть таки журналист, т.е. человек, который читает новости, а не сниппеты из них программирует)
М.б. у АИФа (бумажного) и есть какой-то многолетний багаж цитируемости, но к этим ежеминутным соплям, которые гонят аифовские новостники, эта цитируемость не имеет никакого отношения. Ну раздели аифы - на бумажный (цитируемый) и новостной (пустышка), что ли? Если бы вверху сюжета было бы что-то осмысленное аифовское, например человеком написанная статья или интервью - кто бы что сказал, а? А когда там две-три штуки фуфела - тогда всех и ясит..
Т.е. второе обвинение в неправде - тоже несправедливое? Я привел конкретный пример - а ты наговорил общих слов, на мой конкретный пример вообще не заморочился, но меня обвинил в неправде? Это твоя неправда - пхать вот это (те 12 новостей, которые в моем примере) наверх первой страницы сюжета - это очень спецфические правила, необъяснимые с т.з. обычного читателя. Если это твоя программистская бага - то это бага - чини, а я чото думаю, что это не бага, а фича ;) Персонально для АИФа фича - уж больно его много видно везде - и везде с фуфлом и спамом
3) "вчера яндекс слил АИФу 72,676 человек". На самом деле ... ... ... (опять много умных программстских слов) ... заставляют пользователя делать выбор из довольно большого предложения.
а суть-то? где неправда? не слил яндекс аифу 72,676 человек? т.е. лайфинтернет врет, что ли? Лева, вот из этого "довольно большого предложения" вверху первой страницы этого сюжета было постоянно 1-2-3 ссылки на вот это фуфло (ты его прочитай прежде чем отвечать;) и 0 ссылок на интервью свпрессы. Ну вот такой вот бооольшой выбор ;) Поэтому и такие пропорции - 73,000/1,600. Вуаля
Опять же - если это бага, то надо не со мной ругаться, а сказать спасибо и пробовать починить. Хотя бы гвоздями. Ну а если это таки фича персонально для АИФа ;) Тоды да, тоды чинить не надо - а надо доказывать что я где-то что-то наврал
Я не наврал, Лева - 70К/день - это норма АИФа, часто и больше - да ты сам эти цифры видишь изнутри, правда? И эти 70К - на безнадежное новостное фуфло, а не на человеческие статьи
4) «вот только начало одного из сюжетов». На самом деле в Я.Н. разные региональные издания АиФ считаются одним источником, поэтому на первой странице сюжета в каждом блоке не может появиться больше одного представителя какого-нибудь АиФа ...
Да Лева - вот это конкретно - неправда. Т.е. ты или что-то путаешь, или где-то не в курсе - ну что мне, скриншоты делать, если не веришь? В колбасе из 15 новостей первой страницы было несколько аифов - вот этих самых, которые я процитировал полностью. И это продолжалось все время - пока я на это смотрел. Собственно, это не я лично увидел - мне это показали наши журналисты, с комментом .... - цитировать не буду, чтобы не обижать ;)
5) «мы не спамим, т.е. не копипастим по дюжине "новостей" на каждое топовое событие ежеминутно». На самом деле кол-во новостей на тему от источника никак не влияет .... (опять много умных общих программстских слов)
Вот у меня вопрос - ты это ставишь в блок неправда - это к чему? Что мы типа спамим по 12 новостей на каждый главный сюжет, а я наврал, что мы этого не далем, чтоли? Да нет, Лева, это правда - мы не спамим, а АИФ спамит. И от этой правды никакие общие програмистские слова не спасут.
Не знаю в каком вузе ты учился, м.б. у вас там логику не проходили ;) Но назвать эту мою процитированную фразу неправдой можно было бы, если бы ты привел такой же пример из новостей свпрессы - вот Д.Лихачев пишет "мы не спамим", ан врет, собака! Вот пример.
А ты рассуждаешь странно - вот Д.Лихачев пишет "мы не спамим", ан врет, собака! Кол-во новостей ни на что не влияет... Странная логика, не находишь? ;)
Ну - ты думаешь, что не влияет ;) А АИФ думает, что влияет ;) Ты думаешь, что не бывает на первой странице 2-3 аифов, а я их видел своими глазами. Ты думаешь, что яновости трафик раздают справедливо, что эти 12 аифовских новостей, которые я процитировал, обладают какой-то "информативностью" и "цитируемостью", а я их прочитал. Ты бы их тоже прочитал, что ли;) Там ноль бит информации, безбашенный копипаст с лент, ни одного своего слова
6) «у яндекс-новостей есть некоторая табель о рангах, в которой АиФ, почему-то, до сих пор в первых рядах». На самом деле в Я.Н. есть понятие общего веса источника, ... ... ... А почему СМИ охотнее используют материалы АиФ, а не СП - каждый может придумать сам.
Так, опять вопрос по процедуре - где я конкретно написал неправду, а? Табель о рангах есть? Есть. Где неправда?
Какая есть секретность в цитируемости СМИ в СМИ? Откуда дровишки, что СМИ охотнее цитируют новости АИФА? Бумажный АИФ, за много лет м.б. и поднакопил цитируемость, а новости? Кто именно цитирует это фуфло (см. мои 12 примеров)? Реально - есть такие?
Вот вы даже цитируемость СМИ в блогах спрятали, т.к. там треш, и, как я понимаю, чинить некому? Откуда уверенность, что цифра цитируемости СМИ в СМИ не настолько же трешовая?
Вы цитируемость СМИ в блогах спрятали, но не стали удалять, спасибо - я еженедельно мониторю и скачиваю (себя) - если что - могу показать и рассказать что там не так.
Почему бы так же не выводить куда-нибудь цитируемость СМИ в СМИ? Чтобы хоть посмотреть кто кого когда где как цитирует? Вот типа вот такой ссылки:
http://blogs.yandex.ru/search.xml?cat=smi&id=9606&reqwizard=no&full=1 или такой:
http://blogs.yandex.ru/rating/smi/ Ну вот где тут разница в разы? у нас 47 место, у АИФа - 30, разница на треть (87 / 63) и можно посмотреть что именно цитируют и кто именно. А часто и наоборот - мы выше АИФа.
Или блоггеры цитируют нас примерно одинаково, а СМИ прямо-таки на порядок чаще цитируют АИФ? Правда-правда? ;)
Да нет, я думаю, и СМИ и нас, и их цитируют примерно одинаково - и примерно одинаковые по качеству материалы (статьи, интервью, эксклюзив, ...). Т.е. или ваша автоматика врет (бага), или там что-то где-то прибито гвоздями (фича;)
7) «т.е. на каждой главной странице сюжета будет по несколько аифовских спаммерских новостей». См. пункт 4)
в п. 4 много общих программистских слов, а несколько аифовских новостей на первой странице этого сюжета - я видел своими глазами. И свидетели есть этих артефактов - позвать? Вообще, эти кунштрюки видят тысячи людей - странно опровергать их зрение общими словами об алгоритмах. Вместо того, чтобы поискать в алгоритмах баги
8) «а мы, повидимому - в последних». См. пункт 6)
Ага, см. п. 6. Там нет никакой моей неправды, там ты приводишь некий секретный рейтинг цитируемости СМИ в СМИ, точнее - самого рейтинга не приводишь, а просто о нем рассуждаешь - какбы он где-то есть, но его никто, кроме тебя и Маслова не видит, и никто не сможет заценить его адекватность и достоверность.
ИТОГО: из 8 п.п. озаглавленных неправда - я не вижу ни одного реального примера, когда я сказал неправду, а ты бы ее опроверг. Общие слова об устройстве ваших алгоритмов - не опровержение. Это просто общие слова об идеальных алгоритмах без багов. А реальность - вот эти 12 аифовских новостей за два часа и 73К посетителей.
Если бы ты был реально заинтересован в улучшении качества сервиса Яндекс-Новости, то я бы ожидал от тебя услышать - спасибо, Дим, и правда, херня какая-то - будем изучать херню и чинить
Но посколько я уже полтора года про это талдычу как про Карфаген-должен-быть-разрушен, а яндексойды молчат как партизаны, и ничего не меняется - то у меня и правда создается впечатление (и не только у меня - у всех партнеров), что эта херня - не случайная
I. Маленькие неточности: 1) «у АИФа вообще стабильное третье место по трафику с яндекс-новостей (после РИАНа и Вестей)». На самом деле, если кто не знает, существуют довольно заметные СМИ без ливинтернетовских счетчиков ...
Лева, я не из головы придумываю эти сюжеты - и, уж поверь, не сижу и не мониторю яндекс-новости - я не ваш бетатестер ;)
Я включаюсь и начинаю изучать и мониторить - как простой автомат - когда опять прибегают возмущенные журналисты и ругаются грязным матом на ваши идеальные алгоритмы.
Тогда я начинаю смотреть - естественно, на срез лайфа. Если когда-нить прибегут и будут ругаться на интерфакс (я и там работал;) - то буду изучать интерфакс, но пока что - не ругались ни на кого из перечисленных тобою. Вот уже полтора года - ругаются только на говноновости АИФа, и очень часто. Мои 12 постов в ЖЖ в тэге aif - это только слабое отражение, когда возмущение журналистов зашкаливает - я пишу такой пост. Патипу - я хоть так накажу АИФ за спам, если Яновости не хотят их наказывать ;) Пусть по бартеру теряют реноме в обмен на сотни тыс. нагнанных спамом посетителей
2) «Почему так - туда 73 000, нам 1 600». Первое число - общее число всех переходов на все материалы всех аифовских выпусков с Я.Н., второе число - переходы на один материал СП (переходы на все материалы ровно в 10 раз больше).
ну ок, аиф - 73К, нам 16К, в 4,5 раза больше цитируемость/информативность аифы?
Особенно вот этой новости:
9,112 --
http://aif.ru/society/news/62626 (это просто первая из моего списка)
- 700 знаков, главные из которых - Об этом сообщает РИА Новости
для сравнения -
http://svpressa.ru/accidents/article/28018/ - 7000 зн, опрошены 4 человека, непосредственно имеющих отношение к произошедшему - т.е. вот это вот - журналистика, это можно читать, это осмысленный текст, и результат - 1,600 (т.е. та же самая пропорция - 9,112 / 1,600 - в шесть раз)
Лева, я не вникал детально в устройство твоих идеальных безбаговых алгоритмов, но если они, алгоритмы, считают 700 зн тупого копипаста с РИАНа в шесть раз более цитируемым/информативным/эксклюзивным текстом, чем полнометражное интервью с четырьмя людьми (РусГидро, МЧС, Госдума, Джемаль) - и так же - каждый день, это не какое-то исключение, это так обычно и происходит - то что я могу сказать -- кривые твои алгоритмы, как бы ты их не защищал ;)
О чем и спич, журналист - просто прочитал бы оба текста и тут же бы понял, что сколько стоит, и тут же написал бы тебе багрепорт, и ты бы пошел и починил такое безобразие...
Но, к сожалению - в яндексе нет журналистов, в яндекс-новостях нет менеджера-журналиста, а с твоей, программистской точки зрения - а какая в жопу разница - там 700 знаков, тут 7000 знаков, ключевые слова и там и там есть, а АИФ вы любите в шесть раз больше исходя из каких-то абстрактных метрик, которые вы никому не показываете..
Лева, я и сам программист, я и свпрессу не читаю, и анекдот.ру не читал, когда у Вернера работал, но я просто плотно общаюсь с журналистами - и на самом деле мои посты - это просто ретрансляция на более математический язык того, что они мне рассказывают
Они и вам это пытаются рассказывать - просто вы их не хотите слушать - вы же самые умные, да? Ну что полезного вам может рассказать какой-то гумманитарий, который снипета от гаджета отличить не может ;)