В Сколково прошел недавно Всемирный Конгресс "Теория систем, алгебраическая биология, искусственный интеллект: математические основы и приложения" (26-30 июня 2023 г.). Я участвовал в работе прогностической сессии, которую вел Максим Григорьевич Годарев-Лозовский. Участие мое было заочным, поэтому публикую здесь текстик.
Прогнозирование на основе обработки текстов на естественных языках
(база данных как цифровой двойник текста)
Полуян П.В. СФУ, Красноярск.
Известна концепция "цифрового двойника" (Digital Twin) - так именуют цифровую копию объекта или процесса. Это понятно в случае испытания цифровой копии материального объекта - самолета или автомобиля - в виртуальной аэродинамической трубе. Но можно ли применить это к нематериальному объекту - к тексту? Мы предлагаем считать цифровым двойником текста реляционную базу данных, где все понятия текста представлены в виде таблицы, показывающей связи между ними. Такого рода задачи можно решать вручную, - как это делают школьники "разбирая предложение по частям речи". А для больших файлов следует применять компьютерную обработку текстов на естественном языке (Natural Language Processing, NLP), где объединяются методы AI и математической лингвистики. Наш IT-стартап "Институт оценки информации" разработал алгоритм TEXT2DB, позволяющий автоматически преобразовывать тексты в реляционные базы данных. Это облегчает извлечение из текстов информации, дает ответы на вопросы: "Кто актор?", "Что делалось?", "Где?", "Когда?", "Каким образом?" и т. п. Задачи такого типа возникают, например, в маркетинге при анализе предпочтений. В медицине или геологоразведке - при анализе и сопоставлении данных. Или, например, в сфере OSINT (Open source intelligence), так именуют разведку по открытым источникам. Однако всё это - дескриптивная аналитика, где выявляются существующие связи и закономерности. Предсказанием будущего занимается предиктивная аналитика, но здесь компьютер не поможет, поскольку в реляционной базе данных воплощаются уже заданные связи, а не те, которые могут установиться в будущем с течением времени.
Нам удалось наметить путь к автоматизации предиктивной аналитики, опираясь на концепт, известный из классической философии. Речь идет о законе противоречия (или запрета противоречия), что был открыт Аристотелем. Запрещается одновременно в одном и том же отношении формулировать об одном и том же объекте противоположные утверждения. В XIX-XX вв. философам и логикам удалось связать наличие противоречия и его разрешение с процессуальностью бытия. То есть, противоречие возникает, а затем разрешается (исчезает как противоречие) в ходе изменения ситуации во времени. Первый очерк проблемы принадлежит Гегелю, а научно осмыслена она была логиком Яном Лукасевичем: "Можно было бы сказать, что время только для того существует, чтобы вещи и события могли иметь противоречивые свойства - без ущерба для принципа противоречия" (1, с. 126). Мы согласны с таким подходом, где временной процесс алгоритмизуется (2).
Искусственный Интеллект методами Natural Language Processing может автоматически выявлять противоречия в тексте. Тем самым, выявляются симптомы, где назревает изменение ситуации. Дальнейшая аналитика осуществляется уже естественным интеллектом - тут требуется понимание смысла. Но при обработке больших объемов текстовой информации помощь компьютера может оказаться критически важной. Конкретное описание используемых алгоритмов выходит за рамки данного текста.
Литература
1. Лукасевич Ян, О принципе противоречия у Аристотеля. Критическое исследование / Пер. с польск. - М. - СПб.: ЦГИ, 2012.
2. Pavel Poluian and Dmitry Lichargin, New ontology: algorithmic laws and the passage of time - The Foundational Questions Institute (FQXi), CATEGORY: Undecidability, Uncomputability, and Unpredictability Essay Contest (2019-2020) Режим доступа:
https://fqxi.org/community/forum/topic/3509 видео:
https://vk.com/id140817547?z=video140817547_456239560%2Fcb42e794eb33feac4e