Про жж-шный поиск.

Apr 05, 2015 17:58

Пришел к выводу что яндексовский поиск совсем нихрена не ловит мышей в ЖЖ ( Read more... )

lj

Leave a comment

Comments 42

justy_tylor April 5 2015, 15:16:44 UTC
Для самих бэкапов с комментариями нашёлся правленый ljArchive с http://www.acidqueen.de/lja/LJa.html

Экспорт по годам в .html и открытие браузером + пересохранение в .maff с картинками я делал вручную. Есть ли возможность автоматизации - надо смотреть.

Reply

vitus_wagner April 5 2015, 15:48:59 UTC
Да, конечно ljsm плох тем, что создает один огромный индекс за все годы. Но зато прекрасно сохраняет все картинки (правда. вот не youtube-вские ролики).

Но все-таки задача стоит "раздать как статический сайт нормальнрым веб-сервером". Поэтому .maff это лишнее.

Reply


alll April 5 2015, 15:18:36 UTC
Интересный философский вопрос: а искомый пост вообще физически существует в нынешнем жж? А то может статься его давно проэтосамили в угаре улучшений.

Reply

vitus_wagner April 5 2015, 15:45:53 UTC
Не, пост на месте.
Комментарии со ссылками они проэтосамливают, да, а посты вроде не пропадали. у меня все ходы записаны.

Reply

dibr April 5 2015, 15:51:29 UTC
У меня как минимум один пост в ЖЖ пропадал. Так что иногда они и посты проэтосамливают.

Reply

gul_kiev April 5 2015, 18:23:41 UTC
По крайней мере, сейчас Яндекс находит.
Гугл действительно не видит, удивительно.

Хотя, конечно, локальный бэкап блога хочется иметь независимо от того, хорошо ли он проиндексирован поисковиками.

Reply


Re: яндексовский поиск совсем нихрена не ловит мышей в Ж mpd April 5 2015, 15:22:24 UTC
Не от хорошей жизни.
Я когда игрался с Флексум (был такой сайт у АиП, где можно было свой поиск создавать), не мог понять, чего это мои инструкции на индексирование ЖЖ платформа не выполняет.
Оказалось, что ЖЖ делает всё возможное, чтобы уважающие правила индексирования (специальные nofollow-атрибуты тэгов, меты в хедерах страницы, и т.д.) система не могла бы проиндексировать остальную часть твоего ЖЖ, отталкиваясь от одной конкретной страницы.

Например, вот, что я сейчас увидел на странице своего журнала в заголовке:

Reply

Re: яндексовский поиск совсем нихрена не ловит мышей в Ж vitus_wagner April 5 2015, 15:47:32 UTC
У меня в настройках выключена опция "мимимизировать попадание сайта в поисковые машины".

Reply

Re: яндексовский поиск совсем нихрена не ловит мышей в Ж mpd April 5 2015, 15:54:19 UTC
У меня изначально - тоже всегда отключено минимизировать попадание.
Но - помогает ли это благородному дону?
:-(

Reply

Re: яндексовский поиск совсем нихрена не ловит мышей в Ж vitus_wagner April 5 2015, 16:22:54 UTC
Ну посты не более чем 5-летней давности как-то находятся. А вот потребовалось 10-летней - опаньки.

Reply


morthan2006 April 5 2015, 15:54:24 UTC
В результате комментарии сбэкпалены далеко не все. Ну не то, чтобы я очень по этому поводу переживал, но интересно есть ли решения лучше.

А кроме комментариев прочее бэкапится? Когда я в прошлом году решил проверить свои ljsm-овские архивы, то выяснил, что ЖЖ, похоже, как-то сменил формат. И в результате то, что сбэкапил ljsm, непригодно к использованию.

Reply

vitus_wagner April 5 2015, 16:20:48 UTC
Сегодня - сбэкапилось. Правда как-то странно.
С первого раза нормально сбэкапился 2015 год, а 2014 и 2013 создались файлы нулевой длины. Со второго - сбэкапились все.

Формат страницы они, правда, поменяли, так что пришлось немного править скрипт, чтобы он прописывал в индекс заголовки постов. Там было что-то штуки три варианта регекспа для этой цели, ни один не работал. Пришлось 4-й добавить.

Reply

pouce April 5 2015, 17:09:32 UTC
А не могли бы вы подробней объяснить насчёт правленного скрипта для получайника?

Reply

vitus_wagner April 5 2015, 19:33:21 UTC
Находим функцию process_html_file

Видим там кучу строчкек вида

$title = $1 if ...

Добавляем к ним еще одну:

$title = "$1" if ($line =~ m#\w+: (.*?)#);

Reply


_arty April 5 2015, 17:03:36 UTC
я недавно писал скрипты, которые из API ЖЖ вынимают все посты и комментарии. Правда, превращать это в статический сайт нужно чем-то другим, вроде pelican. Ну и изображения со сторонних сайтов, конечно, отсутствуют.

Reply

vitus_wagner April 5 2015, 19:47:57 UTC
Что-то я не понял про этот пеликан. Почитал - там есть куча плагинов для комментариев, но все они почему-то предполагают что у юзера нет возможности разместить простейший скрипт для обработки POST-запросов. Кто читает комментарии через API со стороннего сайта, кто извращается с генерацией mailto: ссылок.

А нормальной системы комментариев с авторизацией по OpenID нет.

Reply

_arty April 5 2015, 19:53:59 UTC
ну так с простейшим скриптом это будет уже не статический сайт

впрочем, я создаю html комментариев самостоятельно, и цепляю его к посту посредством плагина Static comments, такую систему при желании можно расширить и до добавления комментариев. Хотя до авторизации по OpenID вряд ли.

Reply

vitus_wagner April 5 2015, 19:58:28 UTC
Основное преимущество статического сайта - устойчивость к броскам нагрузки,
сохранится.
Возможность репликации по всяким cdn-ам тоже сохранится. Потому что обычно на один постинг комментария приходятся если не десятки тысяч, то по крайней мере сотни прочтений.

Кстати, в к прикручивании openid к форме постинга комментариев нет никакого rocket science.

А самостоятельно при этом создается именно готовый HTML или что-то вроде маркдауна?

И сохраняется ли при этом древовидность комментов?

А то я уже склоняюсь к идее попробовать поиграться с пеликаном на предмет
опять уйти с ЖЖ/DW на собственный хостинг.

Reply


Leave a comment

Up