Leave a comment

Comments 13

lj_frank_bot February 18 2023, 20:52:41 UTC
Здравствуйте!
Система категоризации Живого Журнала посчитала, что вашу запись можно отнести к категории: Литература.
Если вы считаете, что система ошиблась - напишите об этом в ответе на этот комментарий. Ваша обратная связь поможет сделать систему точнее.
Фрэнк,
команда ЖЖ.

Reply


drew_fighter February 18 2023, 23:42:23 UTC
Ничего не понятно, но очень интересно (С)

Не по теме: Какого объёма текстовый файл ты используешь для разбора и построения словаря?

Reply

vladicusmagnus February 19 2023, 00:05:16 UTC

Переводчик у меня спрашивает оригинал. Ну такое ))) Скорая просит Амбушку (такая хуетень которой "дышут" совсем плохих пациентов )))

Не, ты не понял логики. Словарь делается РАЗ и НАВСЕГДА. Ага. А сам текст - это индексы словаря. Новые слова - новые индексы. Формально, он без ограничений (по логике, по архитектуре - по 2 миллиона на словарь, которых 16 на данный момент).

Соображаешь или расписать?

Reply

drew_fighter February 19 2023, 08:44:51 UTC

> Переводчик у меня спрашивает оригинал. Ну такое )))

А, понял )

> Словарь делается РАЗ и НАВСЕГДА. Ага. А сам текст - это индексы словаря. Новые слова - новые индексы. Формально, он без ограничений (по логике, по архитектуре - по 2 миллиона на словарь, которых 16 на данный момент).

Опять понял. Ну, для архиватора это не очень подходяще, потому что на той стороне (на стороне раскодировщика) должен быть такой же словарь, а это не всегда возможно.

Для архиватора имеет смысл построить словарь перед кодированием, а сам словарь тоже запаковать и включить в архив. И, кстати, некоторые причудливые экспериментальные архиваторы так и делают, которые участвуют в бенчмарках state of art. Правда, их всех натянул на шишку nncp, который использует для сжатия нейросети. Более практичный вариант предполагает, что словарь строится и корректируется на лету, в процессе получения новых символов из буфера. Тогда его не нужно передавать в архиве, потому что он будет аналогичным образом строиться на лету при декодировании.

Твой алгоритм позволяет делать что-то ( ... )

Reply

vladicusmagnus February 19 2023, 15:11:08 UTC

Абсолютно верно. С другой стороны, ну архиватор у тебя будет 100 мегабайт. Мне вон, вчерась, Вестерн Диджитл, подкатил (заметив мой интерес к 15 терабайтным винтам) де, не хотите ли 22 террабайта приобрести, у нас тут и скидочка. А если совсем уж (ебобо на голову) плохо у нас вот - в 45 терабайт 3.5 формфакторе есть. Не интересует, не? ))) Падлы, убил бы. ))))

Ты всё правильно описал. Но ты не понял СМЫСЛА моего словаря. Он для хранения охуенно большого количества.... Книг. Библиотека грубо говоря. Что бы имея в среднем программу в 120 мегабайт на всё про всё, я имел почти всю Флибусту на смарте. Вот в чем цимес. Ничего иного там нет, и не ищи ))) Я ж говорил тебе, я с архиваторами не дружу, так как матан их для меня не неподьёмный, но напрягающий. А зачем мне напрягаться? ))))

А и да. Там я тебе могу сказать так, после первых 2000 книг, новых слов - единицы, а то и нету вовсе. В основном это "эээ-ээ" и "э-эээ-э" ну и такие каличи, их конечно можно привести к единообразию (что тоже та еще фигня, мало ли что там автор имел ввиду) но ( ... )

Reply


Leave a comment

Up