Давно мечтал о такой штуке, так что вряд ли смогу подробно объяснить, зачем она нужна, просто меня занимала сама связанная с ней задача, которой я наконец-то занялся, хотя ничего хитрого в этом и не было.
Началось всё с SMS'ок на японском языке, в процессе написания которых я заметил, что поскольку в японском почти всегда чередуются согласные с гласными, да и между ними есть немало взаимосвязей, уж не говоря о том, что используются далеко не все доступные знаки, получается, что смысловое наполнение на единицу объёма оказывается не слишком велико. Когда мне не удавалось уложиться на одну страницу (150 байт) стандартными ромадзями, я начинал хитрить: выкидывать бесполезую 'h' из 'shi', записывать 'chi' и 'tsu' как 'ti' и 'tu' соответственно, но всё равно мне казалось этого мало.
Тогда я подумал, что многие гласные можно было бы опускать вообще, восстанавливая их, например, по тем же правилам, по которым мы их вставляем в иностранные слова: то есть 'u' после большинства согласных, 'o' после 't' и 'd', ну и в таком духе. Кроме того, можно экономить на пробелах, вставляя их только между синтагмами, то есть падежные и прочие частицы, а также неразвёрнутые определения писать слитно. Ещё я заметил, что совсем не используются заглавные буквы, цифры, некоторые знаки латиницы, и их можно было бы поэксплуатировать. Вопрос оставался в том, как именно, ведь выбранная система кодирования должна была бы сокращать японский текст оптимальным образом -- как с точки зрения объёма среднего текста, так и с точки зрения удобства набора и чтения.
Тогда я стал наводить простую статистику. Для начала я заметил, что самая частая гласная в японском языке -- это 'a'. Недолго думая, я ввёл такое правило:
1. Заглавная согласная буква означает слог: эта буква + 'a'.
Примеры: NMeH MD Ni /namae wa mada nai/
Для гласных букв это не имело смысла, поэтому для них действовало такое правило:
2. Заглавная гласная буква означает долгую гласную. При этом 'O' можно понимать и как 'oo', и как 'ou'.
Примеры: pAtI /paatii/, kOkOsE /koukousei/.
Однако в результате подсчёта частоты встречаемости буквосочетаний в ромадзёвой записи японских текстов привели меня к тому, что сочетание 'ai' встречается в разы чаще, чем 'aa', поэтому правило 2 было подправлено следующим образом:
2'. а) Заглавная гласная буква означает долгую гласную. б) Исключение составляет 'A', которая означает 'ai'. в) При этом 'O' может означать и 'oo', и 'ou'.
Возвращая к согласным: статистика помогла мне уточнить разумные правила восстановления пропущенных гласных. Буквы были разбиты на две основные группы:
3а. При отсутствии после них гласной, мягкости или удвоения огласуются с 'u'. В эту группу попали буквы: b, f, g, p, r, s, y, z.
3б. При тех же условиях огласуются с 'o'. Сюда входят: d, h, k, m, t, w.
Пояснение:
i. 'd'='do' и 't'='to' -- это сам Бог велел, ибо слоги 'du' и 'tu' по звучанию не ассоциируются с согласными 'd' и 't'.
ii. 'h'='ho' потому, что для 'hu' уже есть 'f'.
iii. 'k'='ko', потому что для 'ku' есть девятка.
iv. 'mo' встречается гораздо чаще, чем 'mu', поэтому я отдал предпочтение именно ему.
v. слог 'wu' вообще не нуждается в отдельном обозначении, поэтому проще всего 'w'='wo'.
Некоторые согласные из группы 3а также нередко огласуются с 'o', поэтому для них были придуманы особые обозначения: 5='go', 8='ro' (почему не шестёрка, объясняется ниже), 'C'='so', 4='yo'.
На особых условиях оказалась буква 'c', которой я приписал значение 'tsu'.
Примеры:
- soRw tb nek /sora wo tobu neko/;
- Mbsisgite micmerktm dekiNi TiyO /mabushi-sugite mitsumeru koto-mo dekinai taiyou/.
Некоторые согласные так часто палатализуются, что для обозначения их мягких вариантов я выделил специальные буквы:
4а. 'j' для 'zi'/'zy' (то есть то, что обычно обозначают как 'j'),
4б. 'l' для 'ri'/'ry',
4в. 'q' для 'ti'/'ty' (то есть 'ch'; аналогия пришла из китайского),
4г. 'x' для 'si'/'sy' (то есть 'sh'; аналогия опять же из пиньиня),
4д. 'v' для 'ki'/'ky' (обозначение из ниоткуда, просто это самая часто палатализуемая согласная после вышеуказанных и единственная оставшаяся свободной буква латиницы).
Для этих букв действует другое правило о заглавной букве: будучи большими, они огласуются с 'e', а не с 'ya'; исключение составляет 'J', которое по статистическим соображениям приняло значение 'de' (это легко запомнить, если сопоставить по звучанию q-Q и j-J). Итак,
4a'. 'J' = 'de',
4б'. 'L' = 're',
4в'. 'Q' = 'te',
4г'. 'X' = 'se',
4д'. 'V' = 'ke'.
Особое правило о заглавной действует и для букв 'c' и 'f', которые не имеют естественного аналога. По соображениям, опять же, статистики, им были приписаны значения
5а. 'C' -> 'so', (о чём уже говорилось раньше)
5б. 'F' -> 'me'. (не знаю, как запомнить, например, так: F = female = женщина = me)
И наконец, обязательно надо было поиспользовать цифры. Здесь соответствия были введены такие:
1 = 'hi' от 'hitotsu',
2 = 'ni',
3 = 'mi' от 'mittsu',
4 = 'yo' от 'yottsu',
5 = 'go',
6 = 'no', ибо а) это один самых частых слогов японского языка вообще, б) '6' похожа на повёрнутую の, в) на телефоне располагается там же, где 'n' и 'o'.
7 = 'ne', за частоту, запоминается как знак вопроса и интонация на знаменитом "нээ?",
8 = 'ro', за частоту, похоже на фонетик 呂, от которого произошли знаки каны,
9 = 'ku',
0 = 'ze' от 'zero'.
Больше примеров -- позже. Пока что вот вам занкока:
Znko9N Qnx6 4u2 xO7n4 xnW2 NL
aoi K0G iM mu76 doaw TTiQm
WTxDVw TD3cFQ hhoenJr aNT
Ctt fLr m6 mtFr kt2 muqUJ
unFiSe MDxRNi iTiVN 1t3
DVd icK vduk Jxo, C6 XNK2H
HrK 3Ri FZs TF6 H7G ar kt
Znko9N Qnx6 tE0 MdbeKR YGQ tbiTc
htBxr aci PtsJ omoiJw uRgirNR
k6CRw DiQ KGY9 xO7n4 xnW2 NL