Еще один доклад Яндекса

Jan 07, 2013 01:48

Еще один доклад Яндекса, весьма презабавный. Читающему большой зачот: Яндекс нашел себе веселого и харизматичного работника. Господин Попов рассказал, что:
i) У них в продакшене есть код, который выкидывает мусор, но он закомментирован.
ii) Квантовая хромодинамика это просто по сравнению с поиском.

Несколько интересных моментов, касающихся архитектуры Яндекса:


1) Яндекс любит заниматься оптимизацией распаковки постинг-листов (инвертированных списков). Для этого активно используются хитрые ассемблерные операции (SSE-extensions), которые оперируют над 128-ми битными числами. Настолько сильно любит, что любовно называет постинг-лист кишками. Где же тогда, простите, находятся программисты, занимающиеся оптимизацией постинг-листов? Да, уже давно Яндекс использует коды переменной длины, выравненные по границе машинного слова. Подробнее в Inverted Index Compression Using Word-Aligned Binary Codes Ngoc Anh and Alistair Moffat

2) Похоже, что Яндекс все-таки использует эшелонирование (подокументный pruning). Есть такое понятие, как мусорные страницы, которые "складываются" отдельно. По всей видимости, индекс этого мусора опрашивается только в редких случаях.
http://itman.livejournal.com/373777.html?thread=4160785

matrixnet, yandex

Previous post Next post
Up