Интерпретация промежуточных результатов

Nov 10, 2022 21:58

Ищем способ отобразить закономерности, присущие базе датированных исторических событий. По сути, мы ищем способ выявить математические связи между событиями разного типа с целью выявить и логические связи. На сегодня работающий с Питоном Алексей создал порядка полусотни файлов самого разного типа. Получить кластеры машинным способом так и остается проблемой, поэтому мы шли всеми путями. Коротко расскажу, к чему мы пришли.
***
Отдельный индекс типа события, например, mn (активность монголов) может вести себя весьма паскудно. Стоит летописцу указать на монголов во 2-м веке, как все подвязанные на них закономерности сильно сползают в прошлое. Или вот Англия... освободившая крепостных в 13-м веке - за 500-600 лет до того, как это проделали все остальные. А вот пара связанных индексов ведет себя иначе.
***
Связанными индексами мы считаем индексы типов событий, случившихся в один год в одном месте. Чтобы получать более стабильные результаты, мы расширили период до 5 лет: если два типа события случились в одном месте в пределах 5 лет, они связаны. Результат: резко отсеялись неправдоподобные варианты. Например, Англия отчиталась об освобождении крепостных, но не указала ни срока выкупа земли, ни порядка неизбежной отмены патримониальных судебных прав. Поэтому там, где такие связи есть, все работает, а там, где их нет, машина этот индекс игнорирует.
***
Как правило, два индекса совпадают многократно - например, по 10-50 раз. Для каждого совпадения есть своя дата. В середине этого ряда дат расположена медиана - среднее значение, в отличие от среднеарифметической с дробной частью, отвечающая конкретной дате. В таблице анализа периода 1200-1900 годов таких медиан около 5 тысяч. Индекс имеет множество связей с иными индексами, и каждой такой связи отвечает своя медиана (средняя дата). Это уже сейчас позволило Алексею выстроить общую хронологию медиан. Это не истина в последней инстанции, но это математически корректная опора.
***
Собственно остался один шаг - финальная кластеризация. Если удастся обойтись без нее, буду счастлив. Однако пока этот фортель не удавался. Плюс того, что вижу в файле, - ясность и наглядность происходящего. Минус - 5 тысяч медиан. Нормальный читатель этого не осилит. Да и мне требуется нечто более простое и внятное. Одно дело - любоваться красотой массива и совсем другое дело - эту красоту объяснять )
***
А в целом, я такой красоты в Экселе достичь не мог. Теперь требуется еще 1 (один) качественный рывок.
Previous post Next post
Up