Чтение поста
Библиотека Конгресса продолжает попытки архивировать все твиты за 2006-2012 годы (ализар, да) навело на одну простую мысль: 400 миллионов сообщений в сутки просто не могут быть оригинальными (одни ретвиты чего стоят). А раз так, архивироваться должно на ура: там до миллиона сообщений можно заменить одним-единственным. Тем более, что изо дня в день многое должно повторяться. В итоге окажется, что почти все случаи можно свести к паре миллионов типовых конструкций плюс локальные феномены типа разовых ретвитов по хештегам. А значит, архив можно сделать куда меньше.
И как раз задача архивации в смысле сжатия, как мне кажется, имеет куда больше смысла, чем попытки сохранения всего этого бесконечного цифрового потока самого по себе.