Лингвистическое

Dec 26, 2008 22:29


Ответы на вчерашние вопросы:

1. Русский.
2. Французский.
3. Русский.

Детали - под катом.
Read more... )

стереотипы, локализация, статистика

Leave a comment

ak_47 December 27 2008, 07:37:03 UTC
Я думаю что в пункте 2 стоит указать не только среднее удлинение, но и медиану. Это несколько нивелирует крайности. Ксттаи, есть ли данные для иврита? Было бы интересно их увидеть. По моим прикидам иврит будет примерно равен английскому но в среднем чуть длиннее. С одной стороны нет гласных и написание короче, но с другой имеет место "введение контекста" и расшифровка аббревиатур.

Reply

white_bars December 28 2008, 06:24:29 UTC
> Я думаю что в пункте 2 стоит указать не только среднее удлинение, но и медиану.

Это, кстати, правильная мысль. Я ее подумаю. На первый взгляд (на графики) может показаться, что медиана может быть очень близкой к среднему значению. Но я могу быть неправ.

> Ксттаи, есть ли данные для иврита? Было бы интересно их увидеть.

Под рукой ничего нет, но в понедельник я попробую поискать переводы с хорошей выборкой. Если найду - кину сюда. У меня в планах польский пообнюхивать, но его тоже нет :) Буду искать оба языка. Уверен, что найду :)

Reply

ak_47 December 28 2008, 13:35:50 UTC
Спасибо! :)

Reply

white_bars December 30 2008, 06:31:56 UTC
quick update: польские переводы нашел, иврита нет. Запросил у другой группы :) Жду ответа.

Reply

ak_47 December 30 2008, 06:39:06 UTC
Спасибо. Если это сложно, так и чёрт с ним. Это всего лишь праздный интерес. :)

Reply

white_bars January 8 2009, 22:00:40 UTC
Иврит подкрался незаметно.
Выглядит это так (с табуляциями):

SHORTER THAN ORIGINAL WITH NO INCREASE 0-10% INCREASE 10-20% INCREASE 20-30% INCREASE 30-40% INCREASE EXCEEDING 40% INCREASE Unchanged AVG INCREASE MAX INCREASE
36448 80765 5742 5360 4933 4204 8443 75842 -5.26% 1175%

В общем, налицо среднее _уменьшение_ длины в размере -5.26%
То есть, по большому счету в среднем текст действительно остается примерно той же длины.

Если интересно, то еще вот цифры:
- наибольшее "удлинение" происходит, если длина исходной английской строки находится в пределах 1-6 знаков: текст удлиняется на 24-28 процентов.
- дальше все равномерно укорачивается и уходит "в минус" на переводах длиных строк (длинее 25 знаков)

Полная статистика по разбивке:

1-3 4-6 7-9 10-12 13-15 16-18 19-21 22-24 25-27 28+
24.05% 28.07% 12.75% 9.95% 7.12% 3.77% 1.56% 0.74% -1.28% -9.84%

Вот примерно так... :)

Reply

ak_47 January 8 2009, 22:12:04 UTC
Это примерно то что я и ожидал. Удлинение на коротких словах - расшифровка аббревиатур и полный перевод всяких устоявшихся терминов (типа bitmap). Чем исходная строка длиннее, тем больше экономия благодаря отсутствию гласных и общей краткости слов.

Reply


Leave a comment

Up