1. нужно написать робота, который будет переобходить весь ЖЖ и скачивать записи. 2. нужно написать код, который распарсит HTML-страницу на пост и отдельные комментарии. 3. нужно запилить RT-индексы в сфинксе, которые будут как-то объединяться с основным. 4. нужно ещё железо - на это быстро перестанет влезать. 5. нужен антиспам, чтобы удалять из выдачи и из индекса заведомых спамеров.
Всё это довольно несложно, и делается каждое за несколько дней непрерывной работы. Вот только у меня есть основное место работы (я продакт-менеджер Яндекс.Браузера) и времени не хватает даже на основную работу и семью.
А главное, я не очень вижу в этом смысл. Для меня смысл именно в архивах культурных пластов, в том, что тут в ЖЖ происходило в нулевые годы.
Про технические подробности я хочу завтра пост на Хабр написать.
Вкратце так: фронт - нода + нгинкс бекенд - апач + php + shpinx + mysql (оригиналы лежат не в сфинксе, а в mysql, позволяет разнести нагрузку по двум дискам и вообще меньше данных сфинксом ворочать)
за ноду и нджинкс - плюсик. а вот это говно зачем "апач + php + shpinx" (shpinx - не говно, если чо), не проще ли в elastic все захуячить и нодой дергать? ну еще и mysql выкинуть, один хер больше пополнений не будет, это же архив.
Эластик никто не умеет готовить) В общих случаях он работает вполне прилично, но нужно затачивать под свои данные и специфику приложения, тогда это будет конфетка. К сожалению, это решение не для "обычного" сервера и "обычного" хостинга. У меня индекс в три раза больше базы, но с морфологией и прочими fuzzi плюшками. И эту часть приложения я реально боюсь трогать. Может вам хабрасообщество поможет с этим вопросом, когда опубликуете статью. Про ноду будет интересно почитать, скорее всего там проблемы с памятью.
Reply
Reply
Reply
Reply
Reply
1. нужно написать робота, который будет переобходить весь ЖЖ и скачивать записи.
2. нужно написать код, который распарсит HTML-страницу на пост и отдельные комментарии.
3. нужно запилить RT-индексы в сфинксе, которые будут как-то объединяться с основным.
4. нужно ещё железо - на это быстро перестанет влезать.
5. нужен антиспам, чтобы удалять из выдачи и из индекса заведомых спамеров.
Всё это довольно несложно, и делается каждое за несколько дней непрерывной работы. Вот только у меня есть основное место работы (я продакт-менеджер Яндекс.Браузера) и времени не хватает даже на основную работу и семью.
А главное, я не очень вижу в этом смысл. Для меня смысл именно в архивах культурных пластов, в том, что тут в ЖЖ происходило в нулевые годы.
Reply
Reply
Про технические подробности я хочу завтра пост на Хабр написать.
Вкратце так:
фронт - нода + нгинкс
бекенд - апач + php + shpinx + mysql (оригиналы лежат не в сфинксе, а в mysql, позволяет разнести нагрузку по двум дискам и вообще меньше данных сфинксом ворочать)
Reply
Ок, буду ждать пост на хабре, спасибо
Reply
Reply
Reply
Reply
какие причины падения?
Reply
Reply
У меня индекс в три раза больше базы, но с морфологией и прочими fuzzi плюшками. И эту часть приложения я реально боюсь трогать.
Может вам хабрасообщество поможет с этим вопросом, когда опубликуете статью.
Про ноду будет интересно почитать, скорее всего там проблемы с памятью.
Reply
Сейчас вроде всё норм.
Reply
Leave a comment