Оценка времени расхождения индоевропейских языков на основе байесовского анализа: balty

drfaust_spb in balty_slavjane

Оценка времени расхождения индоевропейских языков на основе байесовского анализа

Jun 20, 2010 11:25

Language-tree divergence times support the Anatolian theory of Indo-European origin

R.Gray, Q.Atkinson
Nature, 2003

В публикации представлены результаты вероятностного моделирования процесса расхождения индо-европейских языков, проведённое на основе байесовского анализа словарей. Поскольку в самой статье кратко и исчерпывающе приведено описание методологии, я ограничусь цитированием.

Мы применили модели лексического развития, байесовский анализ филогении и алгоритмы оценки скорости к матрице, состоящей из 2449 наборов родственных слов 87 индоевропейских языков. … Выделение языковых подгрупп проводилось через декомпозицию исходных словарей, по результатам которой оценивалась устойчивость полученной древовидной структуры. Предварительный анализ исходной информации дал показатель плотности 0.48 и показатель устойчивости 0.76, что значительно лучше ожидаемых для наборов данных биологического происхождения одинаковой величины.

Результирующее дерево первичного анализа показано на рисунке 1а, оно сходно с традиционной структурой деления индоевропейских языков. Все указанные группы языков могут быть последовательно сведены к предковым группам и характеризуются высокими значениями апостериорных вероятностей. Современные методы сравнительного языкознания также поддерживают указанное деление языков, например, объединение в одну группу германских, кельтских и романских языков, раннее разделение греческого и армянского, а также особое положение тохарских языков. Полученное дерево также даёт возможность наметить пути решения ряда давних вопросов, связанных с взаимодействием крупных индоевропейских языковых групп. Так, лингвисты до сих пор не нашли определённого места для албанского языка, в то время как результаты нашего исследования вносят в это направление некоторую определённость (апостериорная вероятность восхождения к общей группе албанского и индо-иранских языков наиболее высока и составляет 0.36).

Важным преимуществом байесовского анализа (с использованием цепей Маркова и метода Монте-Карло) является тот факт, что полученные результаты жёстко не задают определённую топологию дерева. Деревья формируются в соответствии с апостериорными вероятностями отдельных групп, предусматривая известную долю неопределённости конкретной топологии и возможной длины ветвей. Использование байесовского метода для оценок периодов ветвления, мы можем прозрачным образом учитывать вариабельность временных оценок в соответствии с неопределённостью филогении, что позволяет вычислять временные доверительные интервалы для каждой точки ветвления дерева.

На рисунке представлено результирующее дерево с оценками времени разделения.

a - Дерево, выбранное по мажоритарному принципу из 1000 вариантов. Крупнейшие группы языков обозначены различными цветами. Длины веток пропорциональны предполагаемым оценкам совместного развития групп в рамках праязыков. Цифры, указанные над точками ветвления (чёрным), отражают значения байесовских апостериорных вероятностей в процентах. Значения, обозначенные красным цветом, указывают предполагаемое время разделения в годах от нашего времени.

На графиках b-e приведены наборы оценок периода существования предполагаемого праиндоевропейского языка для следующих структур филогении:
b исходное предположение: использование всего набора исходных данных с применеием наиболее строгих ограничений, филогения:
(анатолийский, тохарский, (греческий, армянский, албанский, (иранский, индийский), (славянский, балтийский), ((северо-германский, западно-германский), италийский, кельтский)));
c использование консервативного набора исходных данных, сомнительные данные исключены, филогения: последовательное отделение языковых групп;
d использование всего набора исходных данных с минимальными топологическими ограничениями, филогения идентична пункту b;
e использование всего набора исходных данных с минимальными топологическими ограничениями и применением алгоритма неполного кодирования исходных данных.

Одна из возможностей использования результатов:

Цвет столбцов обозначает предполагаемые временные датировки двух наиболее распространённых теорий происхождения индоевропейцев: синий - курганная гипотеза, зелёный - гипотеза анатолийских земледельцев. Для каждого анализа также указаны значения апостериорных вероятностей.

К сказанному авторами следует добавить важную поправку. Для определения места славянских, балтийских, германских и других живых языков использовались современные лингвистические данные, которые являются результатом сложных процессов формирования языков. Эти процессы включают не только расхождение языков от общих архаичных форм - которые как раз и оценивались в исследовании, - но также процессы взаимодействия, которые построенной моделью не учитываются. Исходя из этого, приведённые временные оценки следует рассматривать в качестве минимальных.

На полученном дереве филогении разделение славянских и балтийских языков оценивается примерно 1400 г. до н.э. С учётом обозначенной выше поправки, можно предполагать, что первые этапы такого разделения имели место уже в начале 2 тысячелетия до н.э.

Указанная в дереве структура деления славянских языков корректно выделяет в отдельную группу южнославянские языки, но деление остальных, на первый взгляд, не совпадает со строгой общепринятой классификацией западно- и восточно-славянских, - этот факт честно отмечается значением апостериорной вероятности 0.40 между ветвями лужицких и остальных языков. Однако, видно, что к западно-славянским легко относятся все остальные языки, кроме глубоко вложенной группы русский/белорусский/украинский. Такое положение вещей не столько является недостатком модели, сколько сигнализирует о сложности процессов, имевших место внутри самих славянских языков.

К сожалению, в исследование не были включены мёртвые языки, поэтому процессы взаимодействия между славянскими языками и их соседями здесь отследить не удаётся.

заметки, статьи, славяне, лингвистика