Полный поиск по всему архиву ЖЖ 2000-2015

Jun 14, 2016 15:00

Трибуна предоставляется Роману Иванову по причине беспрецедентно интересного события.

Тёма, спасибо, что дал возможность обратиться к читателям твоего ЖЖ. Я много времени не займу ( Read more... )

яндекс, поиск, архив, история, цитата, жж, блоги

Leave a comment

osetrik June 14 2016, 12:03:17 UTC
А хули сложного индексировать все записи с новыми? Пипл вот по кадрам из порнушек телок в вк ищет, а тут вроде ж ниче сверхъестественного

Reply

ksergey9 June 14 2016, 12:11:32 UTC
Как вариант: яндекс с таким условием передал "архивы ППБ"? (кстати, что это)

Reply

asper June 15 2016, 05:22:00 UTC
поиск по блогам

Reply

kukutz June 14 2016, 12:16:36 UTC
Что интересно, множества тех, кто говорит "хули сложного сделать что-то" и тех, кто сделал что-то, довольно редко пересекаются.

Reply

osetrik June 14 2016, 12:26:09 UTC
Какие ж забавные высокомерные прогеры, когда выкатят свое очередное говно :) Давай по существу, в чем сложность?

Reply

kukutz June 14 2016, 12:30:47 UTC
Давай.

1. нужно написать робота, который будет переобходить весь ЖЖ и скачивать записи.
2. нужно написать код, который распарсит HTML-страницу на пост и отдельные комментарии.
3. нужно запилить RT-индексы в сфинксе, которые будут как-то объединяться с основным.
4. нужно ещё железо - на это быстро перестанет влезать.
5. нужен антиспам, чтобы удалять из выдачи и из индекса заведомых спамеров.

Всё это довольно несложно, и делается каждое за несколько дней непрерывной работы. Вот только у меня есть основное место работы (я продакт-менеджер Яндекс.Браузера) и времени не хватает даже на основную работу и семью.

А главное, я не очень вижу в этом смысл. Для меня смысл именно в архивах культурных пластов, в том, что тут в ЖЖ происходило в нулевые годы.

Reply

osetrik June 14 2016, 12:35:04 UTC
Ну вот, годный ответ, спасибо. Т.е. это всё для фана? А можешь рассказать о технических подробностях? sphinx? бэкэнд на чем?

Reply

kukutz June 14 2016, 12:37:21 UTC
Для фана и для человечества :) Сорян за пафос.

Про технические подробности я хочу завтра пост на Хабр написать.

Вкратце так:
фронт - нода + нгинкс
бекенд - апач + php + shpinx + mysql (оригиналы лежат не в сфинксе, а в mysql, позволяет разнести нагрузку по двум дискам и вообще меньше данных сфинксом ворочать)

Reply

osetrik June 14 2016, 12:39:46 UTC
А я прощу прощения за быдловатый выпад, ничего не могу с собой поделать :)
Ок, буду ждать пост на хабре, спасибо

Reply

maratema June 14 2016, 14:10:35 UTC
Респект и плюсик в карму!

Reply

6r0 June 14 2016, 16:43:55 UTC
за ноду и нджинкс - плюсик. а вот это говно зачем "апач + php + shpinx" (shpinx - не говно, если чо), не проще ли в elastic все захуячить и нодой дергать? ну еще и mysql выкинуть, один хер больше пополнений не будет, это же архив.

Reply

kukutz June 14 2016, 17:27:41 UTC
Нода при этом легла раз десять, а говну хоть бы хны.

Reply

6r0 June 14 2016, 17:57:39 UTC
я прям расстроился. за что так с любимой нодой-то?
какие причины падения?

Reply

kukutz June 14 2016, 18:15:27 UTC
Пытаемся сейчас разобраться ( ... )

Reply

6r0 June 14 2016, 19:20:33 UTC
Эластик никто не умеет готовить) В общих случаях он работает вполне прилично, но нужно затачивать под свои данные и специфику приложения, тогда это будет конфетка. К сожалению, это решение не для "обычного" сервера и "обычного" хостинга.
У меня индекс в три раза больше базы, но с морфологией и прочими fuzzi плюшками. И эту часть приложения я реально боюсь трогать.
Может вам хабрасообщество поможет с этим вопросом, когда опубликуете статью.
Про ноду будет интересно почитать, скорее всего там проблемы с памятью.

Reply

kukutz June 18 2016, 11:45:09 UTC
По ноде всё просто оказалось, она не была скластеризована, в один процесс пыталась обслужить трафик с Тёмы, Бобука и т.п.

Сейчас вроде всё норм.

Reply


Leave a comment

Up