Моделирование алгоритма текстового ранжирования Яндекса при помощи MatrixNet
С момента перехода Яндекса на поисковые алгоритмы, построенные на основе MatrixNet, у многих оптимизаторов возникли определенные проблемы с выводом сайтов на заданные позиции в топе. Такое положение связано с рядом существенных особенностей подхода заложенного в основу метода MatrixNet. Поэтому при оптимизации сайта очень важно понимать и учитывать эти особенности и их влияние на результаты ранжирования поискового алгоритма Яндекса.
Основные особенности поисковых алгоритмов Яндекса, основанных на методе MatrixNet.
Для начала определим, что такое MatrixNet и каково его место в обучении функции релевантности. В жадном алгоритме оптимизации, используемом Яндексом, функции релевантности документа d относительно запроса q выглядит следующим образом:
fr(q,d)=a1h1(q,d)+a2h2(q,d)+...+anhn(q,d) (1)
MatrixNet это метод получения функций семейства «слабых алгоритмов обучения» (или «weak leaners»), которые в формуле (1) обозначаются как hk(q,d). Алгоритм получения функций hk(q,d) в виду его сложности оставим за рамками данного доклада. Нужно только заметить, что количество функций hk(q,d) достаточно большое, десятки тысяч. Коэффициенты ak - малые величины. Теоретически возможны варианты, когда младшие аk достаточно большие, но практика показала, что это не так. И аk могут быть меньше нуля, т.е. некоторые слагаемые дают отрицательный вклад в релевантность. Обучение проходит на базе оцененных пар (запрос, документ), число которых скорее всего уже больше 5 миллионов. Для понимания особенностей работы ранжирования Яндекса гораздо большую ценность представляет то, что получается на выходе этого алгоритма: функции hk(q,d), которые заданы деревьями решений.
http://www.altertrader.com/publications21.html