Brute force attack на языковую сложность

Jan 13, 2018 01:37

В последнее время, с нулевых годов, в теорлингвистике обсуждается такая не вполне определимая штука, как языковая сложность (language complexity).
То есть в порядке эволюции статлингвистики в лингвистику квантитивную классическое положение, что все естественные языки одинаково сложны, было поставлено под сомнение и идут публикации и дискуссии на сию тему.

Об определении критериев сложности продолжают спорить - от числа правил (на уровнях фонетическом, морфологическом и синтаксическом + иррегулярность, т.е. отклонения от них) и попыток оценить сложность выражения  семантики до выбора неких маркеров сложности - от максимально запутанных сложных глагольных форм до алогичности числительных.

Мне, как киберэкстремисту, импонирует ultimo ratio regum - колмогоровская сложность, т.е. минимальная длина полного описания языка. Тем более, что она невычислима :)

Впрочем, вычислимость/трудоемкость - проблема всех подходов к языковой сложности (маркеры сложности - от лени стремления ее понизить) - надо сначала вручную сформировать свод правил, затем (полу)вручную посчитать, прогнав по корпусу текстов...

И здесь замечательную штуку провернул Патрик Юола.
Есть чудесный алгоритм сжатия LZW (Lempel-Ziv-Welch). Который делает что? - правильно, краткие описания длинных текстов. То есть неидеально делает то же, что и идеальный, но несуществующий "колмогоровский" алгоритм.
Что вполне достаточно для квантлингвистических нужд :)
Чтобы не заморачиваться с описанием языков Юола взял текст, имеющийся на различных языках - Библию.
Есть здесь, правда, еще такая проблема, как различная средняя длина лексем в различных языках (например, cow/корова = 3/6).
И здесь Юола провернул еще один замечательный фокус: он заменял словоформы на случайные числа и мерял коэффициент сжатия такого модифицированного текста, после чего сравнивал коэффициенты сжатия исходного (R) и модифицированого (C).
Зачем? - а потому что словоформы в языках с простой и ясной морфологией вроде аналитических с малым числом флексий или агглютинативных (тюркские, армянский, ...) дают хорошие регулярные повторы (последние - на уровне иерархического приклеивания аффиксов к основе) - и, соответственно, лучше сжимаются. В отличие от глючных морфологически иррегулярных языков. А

Вот что у него получилось:
Язык                  R/C
Маори                 0,895
Английский         0,972
Нидерландский  0,994
Французский      1,01
Русский              1,04
Финский             1,12

Что интуитивно предсказуемо - сколько, к примеру, падежей у синтетических финского и русского? - 14 и 6 соответственно. А у аналитического английского? - два.

Традиционный вопрос - раз проранжировали языки, то кто победил? В смысле сложность языка - это предмет гордости или как?

Аллах его знает. Юола измерил морфологическую сложность, оставив синтаксическую и фонологическую за бортом.
Но в ходе оценок сложности различных подсистем языков появилась гипотеза о компенсаторности - простота одной из подсистем компенсируется сложностью другой - например, чем сложнее морфология, тем проще синтаксис.
Так что в итоге наметилось возвращение к классическому положение об одинаковой сложности языков - при различной структуре сложности.

И немного отсебятины по поводу этого возврата: Виктор Ингве в 1961 сформулировал гипотезу глубины - что максимальная синтаксическая сложность конструкции в английской речи (и, соответственно, языка) обусловлена аппаратными нейрофизиологическими ограничениями - объемом "оперативной" кратковременной памяти. Что, в принципе, может быть физиологической причиной компенсаторности и одинаковой сложности языков.

В порядке легкого троллинга упражнений в национал-лингвистике: Хаймз в 1973 отметил, что усложнение языков совпадает с "укреплением границ", усилению роли языка в качестве маркера идентичности и прочим симптомам закукливания. Причем в таких изолированных обществах с их усложняющимися языками типичен монолингвизм - и символическая функция языка (демонстрация принадлежности к той или иной группе) приоритетна над коммуникативной.
Сравниваем в этом свете названия Симферополского университета при Украине (1) и при России (2):
1. Таврический национальный университет (ТНУ)
2. Федеральное государственное автономное образовательное учреждение высшего образования Крымский федеральный университет (ФГАОУ ВО КФУ)

P.S. Рекомендуемое чтиво - обзор А. Бердичевский. Языковая сложность (language complexity). Вопросы языкознания, № 5, 2012

it, Научпоп, Лингвистика

Previous post Next post
Up