Группа товарищей, предводительствуемая
kukutz, вчера запустила
полнотекстовый поиск по русскоязычным архивам ЖЖ с 2000 по 2015 год. Исходным массивом для этого поиска послужила база объёмом в 1,4ТБ текста, накопленная Яндексом для его сервиса «
Поиск по блогам», но с 2015 года в этом сервисе не используемая. Большое спасибо неленивым товарищам за этот полезный и удобный инструмент. Подробности о проекте -
в его FAQ.
![](http://ic.pics.livejournal.com/dolboeb/53631/1110462/1110462_original.png)
В ограничении поиска октябрём 2015 года нет никаких религиозных соображений. Одни практические. Прикрутить поиск по существующей базе записей - задача посильная, и команда добровольцев с нею успешно справилась. Замутить с нуля поискового робота, который индексировал бы все новые аккаунты, записи и комментарии, ежесекундно добавляемые в ЖЖ - ощутимая трата сил и денег, несоразмерная с ресурсами и возможностями текущей команды добровольцев (кстати,
поддержать проект рублём можно здесь).
Другое дело, что любой запрос, полученный
поисковой системой LJSear.ch, можно было бы превратить в гиперссылку для передачи сторонним поисковикам. Так с прошлого тысячелетия поступает Яндекс, который в конце каждой страницы своей выдачи предлагает пользователю «поискать то же самое» в Bing, Google и Mail.Ru. Но Яндекс, повинуясь звериным законам капитализьма, эту полезную фичу с каждым годом всё сильнее придушает, и применительно к блогам она сегодня у него не работает вообще, из-за несовместимости синтаксиса запросов у разных поисковиков. А ЛЖепоиск, будучи проектом некоммерческим, вполне мог бы взять на себя элементарное упражнение по динамическому переводу между языками Яндекса и Гугла. Благо все аргументы поиска, которые используются для уточения запросов к ЖЖ, известны и неизменны. То, что на языке Яндекса звучит как author:dolboeb, в Гугле обозначается как site:dolboeb.livejournal.com (без деления на персональные блоги и сообщества). Начало временного интервала, которое у Яндекса from_date_full, у Гугла - cd_min. Окончание - to_date_full и cd_max соответственно. Так что запрос вида
https://ljsear.ch/search?q=apple&author=dolboeb&dateFrom=946760400&dateTo=1443646800будет выглядеть в Яндексе как
https://yandex.ru/search/?text=apple%20author%3Adolboeb&from_date_full=01.01.2000&to_date_full=01.10.2015а в Гугле та же строка кодируется так:
https://www.google.ru/search?cd_min=01.01.2000&cd_max=01.10.2015&q=apple+site:dolboeb.livejournal.comСкрипт, который на лету превращал бы любой запрос к ЛЖепоиску в гиперссылки на выдачу Гугла и Яндекса по тем же самым словам, авторам и временным промежуткам, не должен занимать больше двух строк на любом языке программирования. Одна строка для Яндекса, другая - для Гугла. И проблема поиска по датам поздней 31 октября 2015 года решится раз и навсегда, легко и непринужденно.