Справочные данные вместо "здравого смысла" : ailev

ailev

Справочные данные вместо "здравого смысла"

Sep 25, 2012 21:26

Главная идея CYC была в том, что нужно набрать какой-то минимальный объем справочных данных (я тут пользуюсь терминологией из http://ailev.livejournal.com/1021613.html), который затем может быть использован для уже машинного чтения всяческой НСИ, а начинанная в количестве НСИ может быть использована дальше для разбирательства с ситуациями (т.е. непосредственно для осуществления компьютерного думания в ходе ответов на вопросы и решения разных интеллектуальных задач, традиционно относимых к возможным для компьютера HAL2000).

В принципе, это ничем не отличается от задачи иметь какой-то начальный объем справочных данных для решения инженерных задач в многоукладной инженерии (http://ailev.livejournal.com/1027975.html): содержательно и софтово придётся решать примерно те же самые задачи. Кажется, что не нужно это называть "здравым смыслом", и идея будет уже не так плохо выглядеть -- но в такой переинтерпретации есть подвох: под "здравым смыслом" имеется ввиду именно что "народное знание", не отягощённое знаниями специальными -- в противовес экспертному знанию! И отсюда желание использовать краудсорсинг "простых людей" для создания ядра "народной онтологии" (более жёсткое философское заявление: если не народная -- то и не онтология! ибо онтология разделяемая всеми людьми, а не только кучкой экспертов какой-то школы!), и требование трассировать любое понятие "экспертной онтологии" к "здравому смыслу" (иметь внятные объяснения в терминах "здравого смысла").

Тема "здравого смысла", или "справочных данных обо всём" в интеллектуальных системах отнюдь не закрыта, какая-то жизнь там есть -- вон, ACM Transactions on Interactive Intelligent Systems вот-вот опубликует (статус сейчас -- in press, http://tiis.acm.org/special-issues.html) спецвыпуск по справочным данным обо всём для интерактивных систем (Common Sense for Interactive Systems), редакторы как раз из MIT Media Lab.

Есть ряд проектов, которые пытаются воплотить эту программу common sense, заявленную Ленатом в 1984 году, когда он затевал CYC.

Прежде всего, сам http://cyc.com (и нам тут интересно, что его справочные данные есть в открытой форме -- версия 4.0 OpenCyc -- http://www.opencyc.org/ -- с 239тыс. термов, 2млн.триплов и 69тыс. owl:sameAs связями к не-Cyc справочным данным вышла 14 июня 2012 года -- http://sourceforge.net/projects/opencyc/files/OpenCyc%204.0/). В комплекте даётся софт.

Гхм. Это очень негусто, ибо даже справочные данные JORD (http://rds.posccaesar.org/downloads/PCA-RDL.owl.zip) на сегодня дают сразу 2.7 млн. триплов -- и это только инженерные данные, а не "простонародные -- но обо всём мире"! И софт тоже даётся в комплекте -- dot15926, так что OpenCyc на поверку оказывается очень маленьким проектом.

Common Sense Computing Initiative at the MIT Media Lab -- http://csc.media.mit.edu/ -- идея "собрать много-много справочных данных обо всём, как об этом думает народ" путём краудсорсинга (краудсорсинг, кстати, и Cyc когда-то пытался организовать, с таким же маленьким успехом). Это реализовалос в проекте OpenMind: http://openmind.media.mit.edu/. Главный тамошний актив -- 1млн. "предложений" на английском языке, которые привязаны к отношениям в триплах (привет, Gellish, см. архитектуру http://www.lrec-conf.org/proceedings/lrec2012/pdf/1072_Paper.pdf). Вот пример этих предложений: http://openmind.media.mit.edu/en/statement/random/ (в том числе обширное описание пуканья: http://openmind.media.mit.edu/en/concept/fart/ -- вот он, common sense!).

Сyc и OpenMind -- это два самых больших и известных проекта из этой серии. Мне же кажется, что Cyc по факту уже отошёл со своими "микротеориями" от чистого двадцатилетней давности понимания "common sense" как "народного великого онтологического толкователя". OpenMind явно не имеет никаких прикладных задач, чтобы продемонстрировать неудачу или успех подхода, но мне кажется, что неудач там будет явно больше, чем успехов -- мудрость толпы мне сомнительна, популярной у "простого народа" онтологией (думаем о "плоской земле") объяснишь не так много, разве что это может быть помощью в раскручивании какого-нибудь хитрого блендинга, и то не факт.

Моё мнение:
-- тамошний софт и справочные данные вполне можно как-то пристроить к делу. Хотя и непонятно, как. Ибо жалко такого большого труда. Но, скорее всего, в дело пойдёт не столько "здравый смысл", которым в этих проектах гордятся, сколько парсеры естественного языка и прочие прикладные программы. Так, можно добавить к питоновскому софту NLTK (Natural Language Toolkit, http://nltk.org/) и питоновский софт проекта Common Sense Computing из MIT (зного софта на Python (http://csc.media.mit.edu/docs/).
-- интеграционная задача должна решаться не в терминах "здравого смысла" или "народной онтологии" (folk ontology), но в терминах специально разработанных для этого онтологических средств -- системного подхода, блендинга (который вполне можно рассматривать не только как "лингвистический", но и как онтологический), 4D онтологии и подобных вполне "экспертных" интегрирующих мир знаний, поэтому.
-- минимальный объем вручную собранных и тщательно отлаженных справочных данных нужен, но это должен быть явно расширенный разными вариантами "теории всего" аналог "upper ontology on steroids" (upper++, гусарам от ООП молчать!), распухший за счёт добавления описаний геометрии, теорий понятий и блендинга, теории систем, а далее информатики, семантики, прагматики и т.д. -- то есть должны быть справочные данные по лучшим имеющимся у нас теориям устройства мира, и теориям презентации мира. Этим сбором, как ни странно, никто не озабочен -- наоборот, много голосов в пользу отказа от такой работы и занятий "здравым смыслом", или объявлении всего этого хозяйства абсолютно ненужным и последующим решением отображать/represent сразу middle ontology средствами ad hoc (чаще всего -- логика первого порядка в том или ином её изводе, включая controlled English как одно из традиционных представлений этой логики).
-- сам способ репрезентации upper++ ontology подразумевает включение "онтологии об онтологии" (foundational ontology, метаонтологии, практик эволюции онтологии и т.д.) в состав этой upper++ ontology, а также выражению самой этой онтологии в её же собственных средствах. Это может означать, что придётся срочно отъезжать и от традиционного представления в логике первого порядка (или "полуторного", как у Cyc порядка) в какие-то другие представления, основанные на разных теориях понятий (в том числе плюралистической теории понятий, требующей разнообразия представлений).

Так что -- справочные данные, разбитые на микротеории, вместо подхода "здравого смысла". А привязка/мэппинг экспертных онтологий к "здравому смыслу" как "народному набору микротеорий" в целях объяснений и наведения понимания может быть сделана тем же способом, что и привязка двух разных экспертных онтологий: через блендинг какого-либо сорта (ну, или analogy engine, как это у VivoMind, или как-нибудь по-Хофштадтерски -- ну, вы меня поняли). То есть "народный человек" -- это просто такой особенный эксперт со своими суеверными и противоречащими друг другу теориями, ничем не более равный среди других экспертов, с теориями их противоречащих друг другу "научных школ" (а не "школ жизни"), внутри каковых школ тоже есть противоречащие друг другу субтеории.