Вчера на заседании Русского отделения INCOSE разбирались с технологией автоматического анализа и перевода текстов Compreno фирмы ABBYY --
http://incose-ru.livejournal.com/32524.html.
Докладчики предложили схемку, в которой видно, что в описании ситуации прежде всего приходится разбираться с синтаксисом (лексемами), постепенно обвешивая этот синтаксис какими-то значениями (семантемами), и в конце концов привлекая знания по разделяемой собеседниками мира онтологии. Технология Compreno вплотную уже подошла к необходимости работы с онтологией. А онтологи всё больше и больше приходят к необходимости работы с синтаксисом (вспомним, например, о парсерах VivoMind и CYC). В какой-то момент лингвисты и онтологи обязаны будут встретиться, и использовать работы друг друга. Вот мы вчера по факту и провели такую встречу.
Встреча прошла с использованием материала системной инженерии: необходимости разбираться не просто с текстом-речью, как в традиционной задаче перевод, а с совокупностью текста, формул, таблиц, диаграмм в тексте, чертежей "в бумаге", набора корпуса технических стандартов (с точными определениями терминов -- уж насколько точным могли быть авторы этих определений, не будучи линвистами и онтологами), структурированной информации (проектов в CAD/CAM/CAE и PDM/PLM информационных системах). В этом случае уж точно одним синтаксисом не обойтись, но и одной онтологии не хватает.
Одна из оценок: чтобы настроить Compreno на какую-то новую предметную область (например, жаргон какой-то из инженерных дисциплин со всякими "номинальными диаметрами" и прочими нестандартными словосочетаниями), требуется примерно три месяца и 10 человек. Потом можно парсировать тексты на этом жаргоне, переводить на другие языки и использовать парсированное представление для самых разных других целей -- умного поиска, написания отчетов, ответов на вопросы, составления глоссария и т.д.
Вчера же в рассылке Ontology Summit Мэтью Вест и Джон Сова в очередной (как я понял, минимум третий) раз достигли консенсуса, что "you cannot go from language to ontology without thought in between". Так что и мы будем "думать посредине", заниматься смычкой лингвистики и онтологии. Мы пока еще никуда не опоздали, всё только начинается.