Я думаю что в пункте 2 стоит указать не только среднее удлинение, но и медиану. Это несколько нивелирует крайности. Ксттаи, есть ли данные для иврита? Было бы интересно их увидеть. По моим прикидам иврит будет примерно равен английскому но в среднем чуть длиннее. С одной стороны нет гласных и написание короче, но с другой имеет место "введение контекста" и расшифровка аббревиатур.
> Я думаю что в пункте 2 стоит указать не только среднее удлинение, но и медиану.
Это, кстати, правильная мысль. Я ее подумаю. На первый взгляд (на графики) может показаться, что медиана может быть очень близкой к среднему значению. Но я могу быть неправ.
> Ксттаи, есть ли данные для иврита? Было бы интересно их увидеть.
Под рукой ничего нет, но в понедельник я попробую поискать переводы с хорошей выборкой. Если найду - кину сюда. У меня в планах польский пообнюхивать, но его тоже нет :) Буду искать оба языка. Уверен, что найду :)
Иврит подкрался незаметно. Выглядит это так (с табуляциями):
SHORTER THAN ORIGINAL WITH NO INCREASE 0-10% INCREASE 10-20% INCREASE 20-30% INCREASE 30-40% INCREASE EXCEEDING 40% INCREASE Unchanged AVG INCREASE MAX INCREASE 36448 80765 5742 5360 4933 4204 8443 75842 -5.26% 1175%
В общем, налицо среднее _уменьшение_ длины в размере -5.26% То есть, по большому счету в среднем текст действительно остается примерно той же длины.
Если интересно, то еще вот цифры: - наибольшее "удлинение" происходит, если длина исходной английской строки находится в пределах 1-6 знаков: текст удлиняется на 24-28 процентов. - дальше все равномерно укорачивается и уходит "в минус" на переводах длиных строк (длинее 25 знаков)
Это примерно то что я и ожидал. Удлинение на коротких словах - расшифровка аббревиатур и полный перевод всяких устоявшихся терминов (типа bitmap). Чем исходная строка длиннее, тем больше экономия благодаря отсутствию гласных и общей краткости слов.
Reply
Это, кстати, правильная мысль. Я ее подумаю. На первый взгляд (на графики) может показаться, что медиана может быть очень близкой к среднему значению. Но я могу быть неправ.
> Ксттаи, есть ли данные для иврита? Было бы интересно их увидеть.
Под рукой ничего нет, но в понедельник я попробую поискать переводы с хорошей выборкой. Если найду - кину сюда. У меня в планах польский пообнюхивать, но его тоже нет :) Буду искать оба языка. Уверен, что найду :)
Reply
Reply
Reply
Reply
Выглядит это так (с табуляциями):
SHORTER THAN ORIGINAL WITH NO INCREASE 0-10% INCREASE 10-20% INCREASE 20-30% INCREASE 30-40% INCREASE EXCEEDING 40% INCREASE Unchanged AVG INCREASE MAX INCREASE
36448 80765 5742 5360 4933 4204 8443 75842 -5.26% 1175%
В общем, налицо среднее _уменьшение_ длины в размере -5.26%
То есть, по большому счету в среднем текст действительно остается примерно той же длины.
Если интересно, то еще вот цифры:
- наибольшее "удлинение" происходит, если длина исходной английской строки находится в пределах 1-6 знаков: текст удлиняется на 24-28 процентов.
- дальше все равномерно укорачивается и уходит "в минус" на переводах длиных строк (длинее 25 знаков)
Полная статистика по разбивке:
1-3 4-6 7-9 10-12 13-15 16-18 19-21 22-24 25-27 28+
24.05% 28.07% 12.75% 9.95% 7.12% 3.77% 1.56% 0.74% -1.28% -9.84%
Вот примерно так... :)
Reply
Reply
Leave a comment