Лаборатория SEO-Константа и мой вклад в работу: andromich

andromich

Лаборатория SEO-Константа и мой вклад в работу

Sep 24, 2013 15:21

Ух... Сейчас будет несколько ссылок. :) Много работы, много переводов - в основном, по алгоритмам поисковых систем и способам борьбы со спамом всех видов. Наша скромная компания по продвижению сайтов растёт и развивается не только в финансовом плане - мы переводим классические работы о работе Гугла, Яндекса и прочих интересных штук в интернете. В большинстве статей полным-полно математических формул, но есть и более-менее понятные обычным людям материалы.
Недавно закончил большой цикл статей по поведенческим факторам аж в шести частях: рассмотрены (1) алгоритм BrowseRank, который работает на графе пользовательских просмотров веб-страниц и учитывает длительность посещения, (2) и (3) алгоритм ClickRank, извлекающий данные о кликах из логов поисковых систем и помогающий улучшить качество выдачи через коррекцию ранжирования, (4) BrowseRank+ и (5) MobileRank, оценивающий веб-граф мобильных сайтов (кстати, мало похожий на обычный Веб) и (6) Fresh BrowseRank, алгоритм, следящий за датой создания веб-страниц и ссылок в теле документа. По окончании цикла стал больше понимать Марковский процесс, а вот не-математики воспримут его с больши-и-им трудом. :)

Из удивительного - оказалось, что алгоритмы ранжирования при поиске по микроблогам анализируют как обычные характеристики - количество символов твита, количество вопросительных и восклицательных знаков, среднюю длину слова, хештеги так и более интересные: например, количество положительных и негативных слов в документе. Дальше - больше! Коварная система смотрит на соответствие темы твита и темы ссылки в твите, количество местоимений от первого лица... И количество СМАЙЛИКОВ! 8O Такими темпами докатимся до классификаторов серьёзности сообщений... :D

Очень интересной оказалась работа о статистических методах выявления спама, в которой рассматривается анализ огромных объёмов данных и проводится поиск элементов с нехарактерным поведением - такие элементы чаще всего являются спамом. Это коррелирует с другими исследованиями спама: в работе об эволюции веб-страниц показывается нормальный характер появления постов в среднестатистическом блоге (довольно редкий и нерегулярный) и спамовый - частые обновления с большим количеством ссылок и низкокачественного контента. Буквально на днях опубликовал статью от Яндекса, где описываются спамерские тенденции в российском сегменте Веба (СМС-мошенничество, покупка ссылок и т.д.). Машинное обучение мы тоже не обходим стороной. :) Если кому-то захочется почитать как робот анализирует и понимает таблицы на HTML-страницах, то милости просим! Вкратце, данные из таблиц сопоставляются с крупнейшими базами знаний и каждой ячейке выдаётся характеристика сущности. Например, если в одной строке перечислено несколько политиков и политик-актёр (Шварцъ), то алгоритм посчитает, что столбцы характеризуют людей в таблице как политиков, а не как актёров... :)

Ну и напоследок похвастаюсь: серьёзные дядьки-администраторы из Википедии утвердили ссылки [1, 2] на работы алгоритма HITS и анатомию Google, соответственно. Ещё бы! Мы - первые сеошники в рунете, которые перевели классические труды Клейнберга, Брина и Пейджа по работе поисковых систем. Это отличный повод для гордости. :)

Так что, уважаемый читатель, можете расширить свой кругозор и взглянуть на интернет изнутри. Или продвинуть у нас свой сайт, м? :)

Ждём!

P.S.: продолжаю упражняться в фотографии. Вот вам пара фоток, разбавить похвастушки:

джон клейнберг, yandex, информационный поиск, алгоритмы ранжирования, продвижение сайтов, санкт-петербург, лоуренс пейдж, google, поисковые системы, сергей брин