Предположим, что модель языка Lang содержит:
- алфавит букв (звуков);
- правила формирования звуков, букв, слов, предложений;
- словари (орфографический, толковый, ассоциативный и т.д.);
- качественный набор языковых образцов сочетаний лингвистических объектов.
Обозначим за |S| количество объектов во множестве S.
Заметим, что если правил для формирования слов нет, то возможно сгенерировать (количество букв |Alphabet|) в степени (длина слова |Word|) слов длины |Word|.
Было бы замечательно поддерживать фиксированную среднюю длину слова в языке, а также инвариант, чтобы длина максимального слова в языке не превышала удвоенную длину среднего слова. Однако неизвестно по каким правилам соединяются звуки, буквы, буквосочетания, слова, словосочетания, предложения.
Проведём некоторый анализ определённого языка (возьмём современный интернациональный английский язык):
1. |Alphabet| = 26,
2. Гласные - Vowels = {'a', 'e', 'i', 'o', 'u', 'y'}, согласные = Alphabet - Vowels.
3. |Vowels| = 6; |Alphabet - Vowels| = 20.
4. Длина группы согласных букв подряд обычно не превышает числа 4-5, а гласных 1-2.
5. Некоторые звуки встречаются в буквах чаще остальных - 's' {'c', 's'}, 'v' {'v', 'w'}, 'k' {'c', 'k', 'q', 'x'}, а также неизвестно как близки 'i' - 'y'.
6. На некоторые буквы сложно начинать слова - 'h', 'j', 'k', 'x', 'y', 'z', похоже, что последние три буквы были добавлены для употребления в математической терминологии. Из этого следует, что активных используемых букв около 20, что чуть меньше 80% и подходит под
принцип Парето, чем возможно объяснить эффективность английского языка.
7. 'k' заменяется в большинстве слов твёрдым 'k' - 'c', или мягким 'k' - 'q'. Наверное, было бы правильно отнести 'k' к звукам, а буквой сделать удвоенный 'c'.
8. Идеализированная частота звука 'k' в слове (если брать усреднённую модель) - |{'c', 'k', 'q', 'x'}| / |Alphabet| ~ 15.4%, что превышает 10% и позволяет внести правки для идеальной модели (чтобы количество букв, в которых встречается звук не превышало десятую часть алфавита).
9. В английском употребляются длинные слова (длиннее 20-25 букв), что не слишком-то в согласии с бритвой Оккама и оптимальным кодированием информации, ведь длинное слово возможно разбить на два слова меньшей длины.
10. Мало гласных, гласная 'y' добавлена для количества, также как и мало мягких звуков-букв.
11. Правила соединения букв и звуков довольно приятны, однако добавляющиеся слова происходят из различных источников, поэтому не определяется, насколько новые слова литературны, а в большинстве случаев добавленные слова из узкоспециализированных областей знаний, в которых не определяется насколько красивой должна быть идеализированная модель языка.
12. Количество слов в языке примерно порядка 10^5-10^6.
13. Тексты становятся длиннее, однако за счёт того, что одни и те же звуки произносятся большее количество раз, что в целом благотворно влияло на развитие языка.
14. Так как семантическое ядро языка фиксировано, то добавляемые слова не должны быть близки по значению или звучанию с уже имеющимися словами, что заставляет увеличиваться среднюю длину слова, но за ней увеличивается максимальная длина слова, при чём не пропорционально инварианту (удвоенная средняя длина слова словаря больше чем максимальная длина слова словаря).
15. Грамматика сложна и некоторые словосочетания оконфузят кого-угодно, что где-то посредине между
принципом бритвы Хэнлона и
принципом бритвы Оккама.
16. Одно и то же слово может употребляться в различных контекстах.
17. Много качественных образцов текстов, а также фразеологизмов и инкрустированных, правильно подобранными словами, цитат сильными литераторами.
18. Мало пунктуационных знаков, что довольно симпатично.
Итог: английский не масштабируем для добавления слов, однако хорош для обмена культурными сообщениями и позволяет удивляться различным словесным фокусам и конфузам, возможны другие менее очевидные нюансы. Вполне вероятно, что некоторые языки лучше подходят для добавления слов из-за относительной незаполненности словарей.