В
предыдущей заметке о чтении, я разделил свои материалы для чтения на три основные категории: большие книги, мои собственные заметки (в виде Большого Текстового Файла) и "клипы" или "вырезки" - набор разношерстых html-страничек, посты, микротексты, микрозаметки и так далее. Если с большими книгами и большим файлом все было более или менее понятно, то промежуточная категория - заметки, "клипы" и вырезки, была совершенно неопределенной и требовала осмысления.
За прошедший год система чтения изменилась. Многие моменты назрели уже давно, фундаментальным поворотом стал момент, когда я оказался в Метрополии с очень плохим интернетом. Связь через некоторое время наладилась, но момент вынужденной автономности и некоторые исследования, попавшие в мое поле зрения, заставили задуматься.
читать дальше в wordpress'e 1. Закладки в браузере, в роли средства хранения информации, а не в роли опорных ориентиров для серфинга, бесполезны. Когда наступает оффлайн - 8802 закладок (на текущий момент), разумеется, оказываются мертвыми.
Кроме того, во время вынужденной "автономки" мне попалось
интересное исследование - человек решил проверить, сколько его закладок времен 1997го живы сейчас или доступны через Wayback Machine. За 17 лет в реальном интернете потеряли актуальность 91% закладок. С помощью Wayback Machine процент потерь сократился до 45%. Я попробовал проделать нечто подобное - и получил примерно те же результаты.
Интернет меняется очень быстро и не стоит на месте. Wayback Machine спасает только частично. Кроме всего прочего, это тоже сетевой сервис, который тоже может "закончится" или "уйти в коммерцию" в неопределенный момент времени.
2. Практическим выводом из (1) стало решение хранить значимую информацию в оффлайне. От специализированного софта типа
scrapbook, я решил отказаться, в пользу обычных файлов - сошлюсь на сэра vjoiller'а, который в свою очередь любит цитировать Артура Максимова о том, что файловая система - это лучший (и недооцененный) инструмент для хранения, сортировки и каталогизации информации.
3. В качестве формата хранения я уже давно использую
MAFF - Mozilla Archive Format File. Это - стандартизованный формат файла-архива, по существу - zip-файл, внутрь которого складывается страница со всем сопутствующим содержимым - картинками, аудио, скриптами и т.д. и т.п. Их можно открывать через соответствующее расширение firefox, или за неимением такового просто распаковать архив и смотреть файлы любым браузером.
До этого я использовал MAFF-ы время от времени, теперь же перешел к массированному использованию для большой, упорядоченной системы хранения информации. Быстро стало понятно, что хранение страничек в виде файлов на диске, имеет преимущества перед закладками. Из замеченных эффектов - скорость обработки и перетасовки файлов по папкам возрасла на порядок и на ту же величину увеличилась логичность и интуитивность организации папок с архивами. При работе с закладками в браузере, они могут изрядно подтормаживать, а раскладывание файлов по папкам и переименование самих папок "дешево" относительно системных ресурсов. Еще очень упрощается "пропалывание" и "расчистка" стареющего и теряющего актуальность мусора.
Вопросы тэгов и каталогизации решаются раскладкой файлов по иерархическому дереву тем (not -> чтение -> maff-файлы). Дублирование одной заметки в разные темы тоже упрощается - благодаря хард- и софтлинкам. Мой firefox настроен так, что все maff-странички падают в папку maff внутри Dropbox'а, так что все архивы у меня синхронизируются на всех десктопах сразу. И доступны даже тогда, когда сеть отсутствует.
MAFF сохраняет дату и url исходной странички - соответственно всегда видно откуда и что было взято. Плагинка к firefox'у правильно именует сохраняемые файлы (т.е. задает осмысленное имя по заголовку странички - Notes on bookmarks from 1997.html.maff, а не 05dec9f04909d9b6edff.html как это было бы в ранней мозилле). Важно, что это происходит без дополнительных телодвижений с моей стороны. И всегда можно найти требуемую информацию, например, так:
vik@kit:~/zbox/Dropbox/maff$ find . -name "*book*"
./not/закладки/Notes on bookmarks from 1997.html.maff
./not/закладки/Notes on bookmarks from 1997 | Hacker News.html.maff
./doc/pandoc_book
...
./work/qemu/QEMU_FreeDOS - Wikibooks, open books for an open world.maff
MAFF понимает в том числе recoll который я использую в качестве "настольного поисковика", так что вся информация доступна в полнотекстовом поиске в любой момент времени.
Из недостатков - Android-версия Firefox пока MAFF не понимает. У нее есть свои средства хранения и чтения, но о них позже. Думаю, что разработчики все наверстают. Так что это не столько недостаток, сколько "хотелка".
Пожалуй, следующий этап - зачистка закладок в firefox. Я планирую оставить только те, которые (а) являются опорными для серфинга или захода на сервисы (б) закладки быстрого поиска (в) закладки-дела (посмотреть, послушать, почитать - у меня например есть прекрасная папка "смотреть долго и нудно").
4. Для чтения с читалки, я продолжаю использовать grubmybooks, однако "быстрый апдейт текущего чтения" через DropSync, оказался неоптимальным и начал утомлять. Упомянутый синк не отличался стабильностью. Синхронизируемые файлы часто теряли время сохранения, что делало бессмысленным сортировку заметок по дате поступления. Синхронизация требовала внимания и заставляла включать голову каждый раз, когда я цеплялся к wifi - "запустится - не запустится", "попросит денег - не попросит денег", "засинхронит - не засинхронит", "оставит дату или не оставит дату" и так далее. К тому же интерфес у этой софтины (во всяком случае в те времена) был на редкость неочевидным и непрозрачным.
Когда с этой софтиной что-то случилось и она перестала синхронизировать папки совсем, я не стал с ней бороться. Оказалось, что без сверхоперативного обновления заметок-клипов вполне можно жить. Отключение даже пошло на пользу - я переключился на чтение "больших книг" и умных вещей "с низким гликемическим индексом умственного переваривания".
Осознав все это, я снес DropSync насовсем вообще и начал обновлять папку с клипами-заметками "по шнурку" через
Unison. Убедившись в том, что все работает как надо, я перешел к обновлению и синхронизации всей библиотеку целиком. Сам процесс накопления заметок не изменился. Для сбора заметок я использую grabmybooks, который бросает .epub-файлы в папку в дропбоксе. Благодаря этому все "клипы-вырезки" синхронизируются между моими десктопами - и во-первых, всегда под рукой, во-вторых я могу послать себе заметку для чтения с любого из компьютеров.
Я могу читать их на читалке, либо прямо в браузере - к firefox идет отличный
epubreader. К тому же grabmybooks добавляет в заметку url, откуда она была сграблена и дату, так что, как и в случае с .maff-файлами всегда можно дотянуться до оригинала. Это актуально, когда что-то в заметке привлекает мое внимание и я хочу посмотреть на оригинал (и, возможно, сохранить его в maff).
Основная библиотека лежит на главном десктопе, в папке ~/book, которую я синхронизирую с помощью Unison "по шнурку" с папкой в читалке. ~/book/dropbooks - это софтлинк к дропбоксовой папке заметок и он обновляется сразу со всей библиотекой (Unison "знает" что ссылки надо синхронизировать тоже). Так что у меня на нуке всегда свежая папка с "клипами".
5. Все вместе.
Сейчас заметки-клипы хранятся в двух папках - dropbooks и maff, которые синхронизируются дропбоксом.
Общий критерий - epub для чтения и оперативного просмотра повсюду, maff для сохранения "почти точной копии" на десктопе. Что-то интересное попадает сначала в dropbooks в виде epub'а. Если оно оказывается достойным более глубокого изучения (или архивации на будущее) - в maff.
На практике очень быстро выяснилось, множество плюсов такой системы. Я избавился от проприетарной, надоедливой софтины. Начала устаканиваться библиотека - во многом благодаря тому, что изменения и на нуке, и на десктопе синхронизируются практически автоматом и есть возможность организовывать библиотеку как на десктопе, так и на нуке. Это важно, поскольку и там и там я обычно ищу по иерархии папок (почти как на полках в книжном шкафу) и теперь мне не нужно держать в голове два "дерева" папок.
Благодаря общей синхронизации я решил для себя вопрос с архивацией прочитанных заметок - завел в общей библиотечной папке директорию old_drop, куда в папки по датам сохраняю уже неактуальные клипы-заметки. Они не тратят пространства dropbox'а, уводятся из зоны внимания, но в то же время всегда доступны по любому из вариантов поиска - в том числе и recoll'ом
Повысилась оперативность обновления системы - DropSync не всегда хорошо справлялся с синхронизацией, даже при хорошем вайфае, часто ругался на какие-то внутренние разборки с Dropbox, словом требовал присмотра. По сравнению с этим, очень быстрый, прозрачный и практически "бесшовный" процесс синхронизации через Unison (что в командной строке, что через gui-фронтэнд) выглядит волшебством.
Все используемые форматы открытые, накопление и обработка информации происходят с одной стороны автоматически, с другой достаточно прозрачно, чтобы не терять контроля за процессом.
Last but not least, такая система вообще не требует вайфая и/или интернета - что очень пригодилось в "автономке". В частности, даже если dropbox не работает - я вполне могу носить архив на флэшке/мобильнике/читалке - и синхронизировать его на месте через тот же unison (вообще на редкость полезный инструмент).
Из дальнейших планов - настроить работу unison через ssh - чтобы добавить гибкости. Принципиально система ограничена 2Гигабайтами дропбокса или 12ю гигабайтами Яндекс.Диска - учитывая 32Гб на карточке Нука (общий объем библиотеки, которую можно на нем хранить), думаю, этот ресурс исчерпает себя очень нескоро. Возможно, хорошие люди доведут до ума syncit или btsync одумается и откроет исходники - тогда появится возможность синхронизировать все по p2p-протоколу, а если я преодолею лень и инерцию и решусь раскошелиться на статический IP - система вообще станет доступна отовсюду.
Система сбора информации в связи с появлением новых инструментов тоже меняется, но о ней чуть позже.
p.s. Пока писал этот текст, начались веерные отключения света и "автономность" снова стала актуальной. Мы отвыкли мыслить себя в оффлайне, при этом у асинхронного режима (когда определенное время ты в сети, определенное - нет) есть свои преимущества.