я нечаянно закрыл окно терминала, когда он уже скачал все посты и почти все картинки. В результате полтора года картинок не скачалось. Журнал большой (это не мой, в скачиваемом почти в каждом посте картинки, качалось два дня). Т.е. мне нужно бы просто дозакачать недозакачанные картинки. Вероятно, это невозможно? Я не понял, кстати, хронологически ли они закачиваются: вроде да, судя по тому, что недостаёт именно в последних полутора годах.
Если это возможно, то как? Если это невозможно, то, наверно, надо снова скачать журнал начиная с даты начала ошибки, причём, если это делается в той же директории (делать в той же или нет?), то нужно заменять уже скачанные посты (так? это флаг -O?) Но я не понимаю, присоединится ли результат сам по себе к уже правильно скачанной части, или надо что-то делать руками, и если да, то что.
Сейчас логика работы программы такая: для всех постов за указанный период скачать сам пост, извлечь из него ссылки на картинки и перезаписать в теле поста ссылки на картинки с внешних ресурсов на локальный файл картинки. Сами картинки скачиваются в конце работы программы, после того, как все посты закачаны.
Соответственно у вас сейчас есть посты, в которых ссылки на картинки переписаны на локальные файлы, но самих этих локальных файлов нет. И ссылок на них нет. А значит и взять их неоткуда. Видимо более resilient было бы скачивать картинки сразу после скачивания поста, но сейчас логика такая, как я описал.
Боюсь, что для того, чтобы нормально закачать все картинки, придётся заново скачивать архив за всё время жизни журнала. Чтобы в этом убедиться, откройте какой-нибудь старый пост из архива и посмотрите, есть ли в нём картинки.
Спасибо за ответ. Возможно, дело у меня не так плохо, как вам показалось - если возможна ещё одна операция, и тут я очень бы хотел вашего ответа. По моему впечатлению, картинки скачивались хронологически - во всяком случае, десяток старых постов вполне содержат фотографии, а последние полтора года - нет. Т.е. если возможно в ту же директорию заново скачать начиная с определённой даты, то пусть html файлы заменятся на ровно такие же, неважно, в картинки ведь пойдут картинки начиная с этой даты? (Конечно, если они пойдут в ту же директорию img, что раньше). Это может сработать? Какие опции тогда надо включать? Спасибо!
Если картинок нет только в постах за последние 1.5 года, то можно просто стереть соответствующие каталоги с постами и заново запустить программу с обычными опциями (логин-пароль + скачивание картинок). Она определит, начиная с какой даты отсутствуют посты и докачает остальное. Можно не удалять каталоги с постами, а запустить программу с дополнительными опциями -d и -O, результат (надеюсь) будет таким же, как и в предыдущем варианте. Всё заново скачанное приложится к уже имеющемуся без каких-то дополнительных действий.
Надеюсь, мои разъяснения как-то помогли, если возникнут новые проблемы, постараюсь помочь.
Reply
есть ключик для выкачивания диапазона дат:
-d yyyy/mm-yyyy/mm
есть ключик для пересоздания индексного файла без выкачивания записей
-x
есть ключик для игнорирования сетевых ошибок (но не бесконечного повторения попыток выкачивания)
-I (i большое)
есть ключик для того, чтобы убедиться, что все локальные файлы, соответствующие выбранному диапазону дат, имеют ненулевой размер.
-r
Reply
Reply
Reply
Reply
Reply
Reply
Странно, что индексный файл не создался, по идее должен создаваться в любом случае, если что-то скачалось.
Reply
Reply
Reply
я нечаянно закрыл окно терминала, когда он уже скачал все посты и почти все картинки. В результате полтора года картинок не скачалось. Журнал большой (это не мой, в скачиваемом почти в каждом посте картинки, качалось два дня). Т.е. мне нужно бы просто дозакачать недозакачанные картинки. Вероятно, это невозможно? Я не понял, кстати, хронологически ли они закачиваются: вроде да, судя по тому, что недостаёт именно в последних полутора годах.
Если это возможно, то как?
Если это невозможно, то, наверно, надо снова скачать журнал начиная с даты начала ошибки, причём, если это делается в той же директории (делать в той же или нет?), то нужно заменять уже скачанные посты (так? это флаг -O?) Но я не понимаю, присоединится ли результат сам по себе к уже правильно скачанной части, или надо что-то делать руками, и если да, то что.
Буду очень благодарен за ответ.
Reply
Я чуть позже вникну в проблему и постараюсь написать что-то содержательное в ответ.
Reply
Reply
Сейчас логика работы программы такая: для всех постов за указанный период скачать сам пост, извлечь из него ссылки на картинки и перезаписать в теле поста ссылки на картинки с внешних ресурсов на локальный файл картинки. Сами картинки скачиваются в конце работы программы, после того, как все посты закачаны.
Соответственно у вас сейчас есть посты, в которых ссылки на картинки переписаны на локальные файлы, но самих этих локальных файлов нет. И ссылок на них нет. А значит и взять их неоткуда.
Видимо более resilient было бы скачивать картинки сразу после скачивания поста, но сейчас логика такая, как я описал.
Боюсь, что для того, чтобы нормально закачать все картинки, придётся заново скачивать архив за всё время жизни журнала. Чтобы в этом убедиться, откройте какой-нибудь старый пост из архива и посмотрите, есть ли в нём картинки.
Reply
Спасибо!
Reply
Можно не удалять каталоги с постами, а запустить программу с дополнительными опциями -d и -O, результат (надеюсь) будет таким же, как и в предыдущем варианте.
Всё заново скачанное приложится к уже имеющемуся без каких-то дополнительных действий.
Надеюсь, мои разъяснения как-то помогли, если возникнут новые проблемы, постараюсь помочь.
Reply
Leave a comment