Ух... Сейчас будет несколько ссылок. :) Много работы, много переводов - в основном, по алгоритмам поисковых систем и способам борьбы со спамом всех видов. Наша скромная компания по продвижению сайтов растёт и развивается не только в финансовом плане - мы переводим классические работы о работе Гугла, Яндекса и прочих интересных штук в интернете. В большинстве статей полным-полно математических формул, но есть и более-менее понятные обычным людям материалы.
Недавно закончил большой цикл статей по поведенческим факторам аж в шести частях: рассмотрены
(1) алгоритм BrowseRank, который работает на
графе пользовательских просмотров веб-страниц и учитывает длительность посещения,
(2) и
(3) алгоритм ClickRank, извлекающий данные о кликах из логов поисковых систем и помогающий улучшить качество выдачи через коррекцию ранжирования,
(4) BrowseRank+ и
(5) MobileRank, оценивающий веб-граф мобильных сайтов (кстати, мало похожий на обычный Веб) и
(6) Fresh BrowseRank, алгоритм, следящий за датой создания веб-страниц и ссылок в теле документа. По окончании цикла стал больше понимать
Марковский процесс, а вот не-математики воспримут его с больши-и-им трудом. :)
Из удивительного - оказалось, что алгоритмы ранжирования при
поиске по микроблогам анализируют как обычные характеристики - количество символов твита, количество вопросительных и восклицательных знаков, среднюю длину слова, хештеги так и более интересные: например, количество положительных и негативных слов в документе. Дальше - больше! Коварная система смотрит на соответствие темы твита и темы ссылки в твите, количество местоимений от первого лица... И количество СМАЙЛИКОВ! 8O Такими темпами докатимся до классификаторов серьёзности сообщений... :D
Очень интересной оказалась работа о
статистических методах выявления спама, в которой рассматривается анализ огромных объёмов данных и проводится поиск элементов с нехарактерным поведением - такие элементы чаще всего являются спамом. Это коррелирует с другими исследованиями спама: в работе об
эволюции веб-страниц показывается нормальный характер появления постов в среднестатистическом блоге (довольно редкий и нерегулярный) и спамовый - частые обновления с большим количеством ссылок и низкокачественного контента. Буквально на днях опубликовал
статью от Яндекса, где описываются спамерские тенденции в российском сегменте Веба (СМС-мошенничество, покупка ссылок и т.д.). Машинное обучение мы тоже не обходим стороной. :) Если кому-то захочется почитать как
робот анализирует и понимает таблицы на HTML-страницах, то милости просим! Вкратце, данные из таблиц сопоставляются с крупнейшими базами знаний и каждой ячейке выдаётся характеристика сущности. Например, если в одной строке перечислено несколько политиков и политик-актёр (Шварцъ), то алгоритм посчитает, что столбцы характеризуют людей в таблице как политиков, а не как актёров... :)
Ну и напоследок похвастаюсь: серьёзные дядьки-администраторы из Википедии утвердили ссылки [
1,
2] на работы
алгоритма HITS и
анатомию Google, соответственно. Ещё бы! Мы - первые сеошники в рунете, которые перевели классические труды Клейнберга, Брина и Пейджа по работе поисковых систем. Это отличный повод для гордости. :)
Так что, уважаемый читатель, можете расширить свой кругозор и взглянуть на интернет изнутри. Или продвинуть у нас свой сайт, м? :)
Ждём!
P.S.: продолжаю упражняться в фотографии. Вот вам пара фоток, разбавить похвастушки: