Лингвистический преобразователь. Морфологический синтез

May 08, 2012 11:37

Морфологический синтез - процесс преобразования слов с заданными атрибутами в словоформы. Фактически, это известный всем с дества процесс. Для существительных, например, процесс последовательного получения словоформ для слова называется склонением ("стол", "стола", "столу", "стол" и т.д.).

Итак, имея заданную лемму и набор грамматических категорий (смысл слова при этом совершенно не используется), следует построить токен, попадающий в выходное лексическое представление сообщения. Важным свойством данного преобразования является почти полная единичность преобразований отдельных элементов: каждое слово генерирует единственный токен (при лексическом преобразовании каждый токен обычно генерил несколько символов).

На самом деле, не всё так просто, как я вам тут описал. Лемма - не всегда начальная форма слов (по крайней мере, для наших целей). Она может быть выражением смысла слова, записанным на некотором языке описания смысла. И тогда преобразование усложняется - ведь сначала нужно сгенерировать само слово, а только потом - результирующий токен. Преобразования становится многоступенчатым.

Из скольких микропреобразований состоит морфологический синтез? Если считать, на вход уже подаётся готовая лемма, то микропреобразование ровно одно, и оно совпадает со всем преобразованием. Если воспринимать входное слово как чистый носитель смысла без формы, то первым преобразованием должно стать построение формы общеродового слова (генерация корня), например "лес". Вторым - генерация конкретного слова на основе особенностей его смысла (словообразование), например "лесок" - маленький лес. И последним - непосредственно словоизменение, построение конкретной формы слова - "лесками". Глубина морфологического синтеза зависит от того, насколько сильно мы абстрагируем смысл слов от их формы.

На данном этапе я предлагаю ограниться наиболее поверхностным преобразованием, затрагивающий лишь словоизменение. Потом мы всегда можем расширить его.

Важно понимать, что чем чем глубже будет модель морфологического преобразования, тем лучше будет осуществлятья и обратная синтезу операция - анализ. Если мы сможем качественно проанализировать входные токены и сразу извлечь смысл всех входных слов (речь идёт о смысле именно отдельных слов, а не всего высказывания), у нас будет меньше сложностей при последующей, наиболее трудоёмкой операции - синтаксическом анализе.

Итак, словоизменение. Для каждой части речи нужно задать правила образования словоформ. К примеру, можно записать правило: "глагол на -ить в прошедшем времени, единственном числе и мужском роде оканчивается на -ил". Задача описания правил не сверхсложная, просто требующая определённых временных затрат - правил достаточно много. Имея такой набор правил, наш преобразователь быстро найдёт нужное для входного слова и вычислит его словоформу.

ИИ

Previous post Next post
Up