Про жж-шный поиск.

Apr 05, 2015 17:58

Пришел к выводу что яндексовский поиск совсем нихрена не ловит мышей в ЖЖ ( Read more... )

lj

Leave a comment

vitus_wagner September 17 2015, 08:11:55 UTC
Лучшее найденное решение ljsm и грепать. ljsm в данном случае лучше ljdump потому что его имена файлов совпадают с URL-ками ЖЖ. Поэтому посмотрев на выдачу грепа легко руками сформировать правильную URL в ЖЖ.

ljsm, увы, крайне хреново сохраняет комменты. Раньше лучше сохранял, но улучшизмы СУПа все сломали, внешний сервис разворачивания тредами, которым он пользовался, умер, и фактически рассчитывать можно только на посты,
Но то что он делает - является статичской копии журналов.

ljdump работает не через URL-ки для людей, а через API, поэтому он честно сохраняет все данные постов и комментов, но только для тех журналов, к которым у запускающего есть пароль (честно сказать, не помню, есть ли через API доступ к комментам постов во френдленте). И пишет их в XML-формате с довольно странными именами. Поэтому для того чтобы сделать статическую (а на самом деле можно даже не статическую - там есть что-то про импорт в wordpress) копию, которую можно смотреть браузером придется приложить некоторые усилия.

И ljsm, и ljdump авторизовываться умеют.

wget можно научить авторизовываться в ЖЖ. По-моему, самый простой способ - подсунуть ему в соответствующем параметре cookie file, созданный браузером, в котором пользователь залогинен. Не проверял, но вообще никакого rocket science в ЖЖ-шной авторизации нет.
А вот комменты там подргружаются теперь через Javascript, поэтому с комментами у wget-а будут сложности.

Reply


Leave a comment

Up