Apr 01, 2014 03:10
Есть текстовый файл длиной, скажем, 100 тысяч строк. Каждая строка - примерно 10-20 байт. Порядок строк - неважен. То есть, другими словами, есть просто неупорядоченный набор строк. Как его лучше всего сжать (пооптимальнее)?
Звучит как что-то что должно быть давно решено, но сходу не вспомню чтобы я это где-то видел. Наиболее естественным кажется представить набор как trie и его закодировать. Но не уверен, что это будет оптимально. В голове есть еще несколько идей, надо обдумать. В качестве теста, наверное, можно взять /usr/share/dict/words.
programming