Извлечение справочных данных из технических текстов на естественных языках

Sep 21, 2013 00:33

ТехИнвестЛаб.ру продолжает исследования в области автоматизированного извлечения информации из инженерных текстов на естественном языке. В презентации демонстрируются результаты обработки определений из нефте-газового словаря и построения справочных данных на их основе. Проект выполнялся с использованием софта ABBYY Compreno, разработанного и ( Read more... )

Leave a comment

ko444evnik September 22 2013, 11:43:38 UTC
1. на слайде 12 внизу, по-видимому, опечатка.

имеется :
"дезактивация" <- IsSubjectIn -> "и упрощения дезактивации" <- IsASpecializationOf -> "и упрощения дезактивации".

а должно быть, как мне представляется :
"дезактивация" <- IsSubjectIn -> "и упрощения дезактивации" <- IsASpecializationOf -> "упрощение".

2. Так как сам, грешным делом, прикидывал как iso 15926 использовать сходным образом, и делал по этому поводу заметки, так пока и не доросшие до статьи, имею высказать по поводу самого подхода :

2.1. iso 15926 оперирует деонтической модальностью, т.е. утверждениями типа "дОлжно" : "Волга впадает в Каспийское море." etc. Любой реальный технический текст неизбежно будет содержать утверждения типа "возможно"/"вероятно" ( "Вероятно, что отметка на радаре является самолетом, но возможно - что всего лишь метеообразованием." - алетическая фактическая модальность ), которые средствами самого iso 15926 не выражаются. Чтобы подход начал работать - потребуется сделать над iso некоторую "надстройку", которая будет соотносится с ним, примерно как само iso соотносится с OWL, а то в свою очередь - c RDF.

2.2. До тех пор пока будут учитываться только те суждения, которые явно в тексте содержатся, но не будут учитываться те, которые которые автором всего лишь подразумеваются, но для краткости эллиптированы - подход будет давать тривиальные результаты. Человек запросто может проинтерполировать недостающие участки во фразах типа "Сидоров навел орудие. Танк выстрелил. "Тигр" загорелся." Чтобы подобное мог делать алгоритм, он должен иметь возможность восстанавливать из обрывков примерно такие цепочки:
1. "Сидоров и орудие находятся в экземпляре танке, который выстрелил по другому экземпляру танку, модель которого известна под наименованием Тигр."
2. "Экземпляр танка модели Тигр (возможно) загорелся в результате попадания в него снаряда".
3. " "Танк выстрелил" - означает что "орудие танка выстрелило снарядом в направлении точки прицеливания, которую установил Сидоров" " и т.д. и т.п.

Reply

bvn_mai September 26 2013, 10:34:31 UTC
"...проинтерполировать недостающие участки во фразах..." кореференция однако :) - много диссертаций было написано на эту тему, но пока мало толку. Знаете как решить эту проблему?

Reply

ko444evnik September 26 2013, 19:33:33 UTC
которую из проблем? "написание автоматического алгоритма интерполяции"? для того нужна очень большая статистическая модель очень специфически и очень глубоко размеченных данных, причем размеченных квалифицированным(-ыми) специалистом(-ами), которые такими вещами заниматься не любят.

"написание инструмента автоматизированного извлечения информации из инженерных текстов на естественном языке"? он сведется к инструменту опроса "живого эксперта" по проблеме.

пример на картинке:


то, что белое - оно в тексте именно что содержится.
то, что синее - в тексте вообще говоря не содержится, а содержится в голове эксперта, текст читающего. у разных экспертов может содержаться в голове весьма отличные картины мира, часто даже несовместимые.

но iso 15926 тут да, может помочь.
правда в текущем его виде изложить на нем можно не всё.

Reply

bvn_mai September 27 2013, 05:45:29 UTC
Так, на диких просторах интернет встречен собрат по разуму :). Очевидно, что из решения второй проблемы (семантическая интерпретация с учетом контекста) следует решение первой задачи (кореференция).

"..."написание инструмента автоматизированного извлечения информации из инженерных текстов на естественном языке"? он сведется к инструменту опроса "живого эксперта" по проблеме..." - нет это проблема объединения знаний (неполных и противоречивых) из разных источников в единый контекст - самообучение системы (устранение синих пятен на вашей схеме). Очевидно, что некоторые первичные сведения в нее придется ввести вручную. Обучение - это отдельный разговор.

"...правда в текущем его виде (iso 15926) изложить на нем можно не всё..." - был бы Вам очень признателен, если бы Вы об этом рассказали подробнее. Я подозреваю, что это касается не только "возможно"/"вероятно". Что мешает ввести на схему сущность "Вероятность"?

Построение онтологии это не самоцель. Ее структура (структура данных) определяются задачей, которую Вы хотите решить. Какую цель Вы ставите?

Reply

ko444evnik September 27 2013, 19:46:03 UTC
>>Что мешает ввести на схему сущность "Вероятность"?

то что стандарт iso 15926 был сделан под вполне конкретные цели. "молоток для заколачивания гвоздей отлично заколачивает гвозди. но им неудобно забивать шурупы."(tm)

его типовая задача: взять инженерный объект масштаба нефтяной платформы (= сотня тысяч метров труб и кабелей и десятки тысяч приборов их контролирующих), описать его, и обеспечить его функционирование согласно этому описанию. "вероятность" там по умолчанию равна единице.

но. идея заложенная в стандарт оказалась в определенных пределах гибкой, чтобы его [u]можно было попытаться[/u] применить для чего нибудь еще, например для темы указанной как subj.

>> был бы Вам очень признателен, если бы Вы об этом рассказали подробнее. Я подозреваю, что это касается не только "возможно"/"вероятно".

пример:
http://dot15926.livejournal.com/36954.html

>>нет это проблема объединения знаний (неполных и противоречивых) из разных источников в единый контекст - самообучение системы (устранение синих пятен на вашей схеме).

"кто не прав?" - это вопрос не инженерный.
инженерный - это "почему не завелось?".

>>Очевидно, что некоторые первичные сведения в нее придется ввести вручную. Обучение - это отдельный разговор.

"первичные сведения" как раз можно ввести автоматом. благо они типичны. "вручную" придется вносить все нетипичное и невыводимое. т.е. как раз самое интересное.

>>Какую цель Вы ставите?

я этот стандарт "пробовал на зуб" на предмет использования в проектах. наподобие:
http://s018.radikal.ru/i522/1212/b4/6c5f9e3453e5.png

на текущий момент, по причине плотной занятости, времени этому практически не уделяю, но в какой-нибудь среднесрочной перспективе непременно вернусь.

Reply

bvn_mai September 29 2013, 11:29:31 UTC
А Вы уверены, что "не завелось"? :)
Я вижу, что мы решаем разные задачи, отсюда некоторое недопонимание. Я в курсе зачем нужен iso 15926.

Reply


Leave a comment

Up