Comments | tema: Полный поиск по всему архиву ЖЖ 2000-2015

tema

Полный поиск по всему архиву ЖЖ 2000-2015

Jun 14, 2016 15:00

Трибуна предоставляется Роману Иванову по причине беспрецедентно интересного события.

Тёма, спасибо, что дал возможность обратиться к читателям твоего ЖЖ. Я много времени не займу ( Read more... )

яндекс, поиск, архив, история, цитата, жж, блоги

Leave a comment

Back to all threads

osetrik June 14 2016, 12:03:17 UTC

А хули сложного индексировать все записи с новыми? Пипл вот по кадрам из порнушек телок в вк ищет, а тут вроде ж ниче сверхъестественного

ksergey9 June 14 2016, 12:11:32 UTC

Как вариант: яндекс с таким условием передал "архивы ППБ"? (кстати, что это)

asper June 15 2016, 05:22:00 UTC

поиск по блогам

kukutz June 14 2016, 12:16:36 UTC

Что интересно, множества тех, кто говорит "хули сложного сделать что-то" и тех, кто сделал что-то, довольно редко пересекаются.

osetrik June 14 2016, 12:26:09 UTC

Какие ж забавные высокомерные прогеры, когда выкатят свое очередное говно :) Давай по существу, в чем сложность?

kukutz June 14 2016, 12:30:47 UTC

Давай.

1. нужно написать робота, который будет переобходить весь ЖЖ и скачивать записи.
2. нужно написать код, который распарсит HTML-страницу на пост и отдельные комментарии.
3. нужно запилить RT-индексы в сфинксе, которые будут как-то объединяться с основным.
4. нужно ещё железо - на это быстро перестанет влезать.
5. нужен антиспам, чтобы удалять из выдачи и из индекса заведомых спамеров.

Всё это довольно несложно, и делается каждое за несколько дней непрерывной работы. Вот только у меня есть основное место работы (я продакт-менеджер Яндекс.Браузера) и времени не хватает даже на основную работу и семью.

А главное, я не очень вижу в этом смысл. Для меня смысл именно в архивах культурных пластов, в том, что тут в ЖЖ происходило в нулевые годы.

osetrik June 14 2016, 12:35:04 UTC

Ну вот, годный ответ, спасибо. Т.е. это всё для фана? А можешь рассказать о технических подробностях? sphinx? бэкэнд на чем?

kukutz June 14 2016, 12:37:21 UTC

Для фана и для человечества :) Сорян за пафос.

Про технические подробности я хочу завтра пост на Хабр написать.

Вкратце так:
фронт - нода + нгинкс
бекенд - апач + php + shpinx + mysql (оригиналы лежат не в сфинксе, а в mysql, позволяет разнести нагрузку по двум дискам и вообще меньше данных сфинксом ворочать)

osetrik June 14 2016, 12:39:46 UTC

А я прощу прощения за быдловатый выпад, ничего не могу с собой поделать :)
Ок, буду ждать пост на хабре, спасибо

maratema June 14 2016, 14:10:35 UTC

Респект и плюсик в карму!

6r0 June 14 2016, 16:43:55 UTC

за ноду и нджинкс - плюсик. а вот это говно зачем "апач + php + shpinx" (shpinx - не говно, если чо), не проще ли в elastic все захуячить и нодой дергать? ну еще и mysql выкинуть, один хер больше пополнений не будет, это же архив.

kukutz June 14 2016, 17:27:41 UTC

Нода при этом легла раз десять, а говну хоть бы хны.

6r0 June 14 2016, 17:57:39 UTC

я прям расстроился. за что так с любимой нодой-то?
какие причины падения?

kukutz June 14 2016, 18:15:27 UTC

Пытаемся сейчас разобраться ( ... )

6r0 June 14 2016, 19:20:33 UTC

Эластик никто не умеет готовить) В общих случаях он работает вполне прилично, но нужно затачивать под свои данные и специфику приложения, тогда это будет конфетка. К сожалению, это решение не для "обычного" сервера и "обычного" хостинга.
У меня индекс в три раза больше базы, но с морфологией и прочими fuzzi плюшками. И эту часть приложения я реально боюсь трогать.
Может вам хабрасообщество поможет с этим вопросом, когда опубликуете статью.
Про ноду будет интересно почитать, скорее всего там проблемы с памятью.

kukutz June 18 2016, 11:45:09 UTC

По ноде всё просто оказалось, она не была скластеризована, в один процесс пыталась обслужить трафик с Тёмы, Бобука и т.п.

Сейчас вроде всё норм.

Back to all threads