Здравствуйте! Система категоризации Живого Журнала посчитала, что вашу запись можно отнести к категории: Литература. Если вы считаете, что система ошиблась - напишите об этом в ответе на этот комментарий. Ваша обратная связь поможет сделать систему точнее. Фрэнк, команда ЖЖ.
Переводчик у меня спрашивает оригинал. Ну такое ))) Скорая просит Амбушку (такая хуетень которой "дышут" совсем плохих пациентов )))
Не, ты не понял логики. Словарь делается РАЗ и НАВСЕГДА. Ага. А сам текст - это индексы словаря. Новые слова - новые индексы. Формально, он без ограничений (по логике, по архитектуре - по 2 миллиона на словарь, которых 16 на данный момент).
> Переводчик у меня спрашивает оригинал. Ну такое )))
А, понял )
> Словарь делается РАЗ и НАВСЕГДА. Ага. А сам текст - это индексы словаря. Новые слова - новые индексы. Формально, он без ограничений (по логике, по архитектуре - по 2 миллиона на словарь, которых 16 на данный момент).
Опять понял. Ну, для архиватора это не очень подходяще, потому что на той стороне (на стороне раскодировщика) должен быть такой же словарь, а это не всегда возможно.
Для архиватора имеет смысл построить словарь перед кодированием, а сам словарь тоже запаковать и включить в архив. И, кстати, некоторые причудливые экспериментальные архиваторы так и делают, которые участвуют в бенчмарках state of art. Правда, их всех натянул на шишку nncp, который использует для сжатия нейросети. Более практичный вариант предполагает, что словарь строится и корректируется на лету, в процессе получения новых символов из буфера. Тогда его не нужно передавать в архиве, потому что он будет аналогичным образом строиться на лету при декодировании.
Абсолютно верно. С другой стороны, ну архиватор у тебя будет 100 мегабайт. Мне вон, вчерась, Вестерн Диджитл, подкатил (заметив мой интерес к 15 терабайтным винтам) де, не хотите ли 22 террабайта приобрести, у нас тут и скидочка. А если совсем уж (ебобо на голову) плохо у нас вот - в 45 терабайт 3.5 формфакторе есть. Не интересует, не? ))) Падлы, убил бы. ))))
Ты всё правильно описал. Но ты не понял СМЫСЛА моего словаря. Он для хранения охуенно большого количества.... Книг. Библиотека грубо говоря. Что бы имея в среднем программу в 120 мегабайт на всё про всё, я имел почти всю Флибусту на смарте. Вот в чем цимес. Ничего иного там нет, и не ищи ))) Я ж говорил тебе, я с архиваторами не дружу, так как матан их для меня не неподьёмный, но напрягающий. А зачем мне напрягаться? ))))
А и да. Там я тебе могу сказать так, после первых 2000 книг, новых слов - единицы, а то и нету вовсе. В основном это "эээ-ээ" и "э-эээ-э" ну и такие каличи, их конечно можно привести к единообразию (что тоже та еще фигня, мало ли что там автор имел ввиду) но
( ... )
Comments 13
Система категоризации Живого Журнала посчитала, что вашу запись можно отнести к категории: Литература.
Если вы считаете, что система ошиблась - напишите об этом в ответе на этот комментарий. Ваша обратная связь поможет сделать систему точнее.
Фрэнк,
команда ЖЖ.
Reply
Не по теме: Какого объёма текстовый файл ты используешь для разбора и построения словаря?
Reply
Переводчик у меня спрашивает оригинал. Ну такое ))) Скорая просит Амбушку (такая хуетень которой "дышут" совсем плохих пациентов )))
Не, ты не понял логики. Словарь делается РАЗ и НАВСЕГДА. Ага. А сам текст - это индексы словаря. Новые слова - новые индексы. Формально, он без ограничений (по логике, по архитектуре - по 2 миллиона на словарь, которых 16 на данный момент).
Соображаешь или расписать?
Reply
> Переводчик у меня спрашивает оригинал. Ну такое )))
А, понял )
> Словарь делается РАЗ и НАВСЕГДА. Ага. А сам текст - это индексы словаря. Новые слова - новые индексы. Формально, он без ограничений (по логике, по архитектуре - по 2 миллиона на словарь, которых 16 на данный момент).
Опять понял. Ну, для архиватора это не очень подходяще, потому что на той стороне (на стороне раскодировщика) должен быть такой же словарь, а это не всегда возможно.
Для архиватора имеет смысл построить словарь перед кодированием, а сам словарь тоже запаковать и включить в архив. И, кстати, некоторые причудливые экспериментальные архиваторы так и делают, которые участвуют в бенчмарках state of art. Правда, их всех натянул на шишку nncp, который использует для сжатия нейросети. Более практичный вариант предполагает, что словарь строится и корректируется на лету, в процессе получения новых символов из буфера. Тогда его не нужно передавать в архиве, потому что он будет аналогичным образом строиться на лету при декодировании.
Твой алгоритм позволяет делать что-то ( ... )
Reply
Абсолютно верно. С другой стороны, ну архиватор у тебя будет 100 мегабайт. Мне вон, вчерась, Вестерн Диджитл, подкатил (заметив мой интерес к 15 терабайтным винтам) де, не хотите ли 22 террабайта приобрести, у нас тут и скидочка. А если совсем уж (ебобо на голову) плохо у нас вот - в 45 терабайт 3.5 формфакторе есть. Не интересует, не? ))) Падлы, убил бы. ))))
Ты всё правильно описал. Но ты не понял СМЫСЛА моего словаря. Он для хранения охуенно большого количества.... Книг. Библиотека грубо говоря. Что бы имея в среднем программу в 120 мегабайт на всё про всё, я имел почти всю Флибусту на смарте. Вот в чем цимес. Ничего иного там нет, и не ищи ))) Я ж говорил тебе, я с архиваторами не дружу, так как матан их для меня не неподьёмный, но напрягающий. А зачем мне напрягаться? ))))
А и да. Там я тебе могу сказать так, после первых 2000 книг, новых слов - единицы, а то и нету вовсе. В основном это "эээ-ээ" и "э-эээ-э" ну и такие каличи, их конечно можно привести к единообразию (что тоже та еще фигня, мало ли что там автор имел ввиду) но ( ... )
Reply
Leave a comment