Текущие и ближайшие изменения - морфология и синтаксис

Oct 03, 2011 20:08

Синтаксический анализатор

Расчищена площадка для новой версии. Так как отказаться от старой (текущей) версии нельзя из-за поддержки коммерческих проектов, то придется возводить новый анализатор параллельно старому.

То есть - все постепенно, эволюционно.

Сигнатура функции sol_SyntaxAnalysis в текущей девелоперской версии изменена, в ней вместо булевских параметров введены целочисленные флаги. Один параметр управляет работой морфологического модуля, в том числе - нечеткий анализ. Другой параметр отведен на управление синтаксическим модулей, и сейчас он будет переключать между дефолтным старым анализатором и новым.

Утилита для автоматического тестирования анализаторов TestLexicon будет вызывать уже новый модуль. Проверка синтаксического анализа будет заключаться в следующем. На входе в текстовом файле задаются тестовые предложения. А также указание на слово, которое должно стать корнем созданного синтаксического графа. На обдумывании также находится идея задавать кроме корневого слова также все дерево, чтобы контролировать все правила синт. разбора.

Лексика

Закончился большой этап расширения. Сейчас в русском лексиконе более 160 тысяч статей. Процесс удалось неплохо автоматизировать благодаря набору небольших утилиток, которые фильтруют и всяко разно преобразуют результаты работы частотного анализатора Empirika. В итоге на входе имеем несколько гигабайтов текста, на выходе текстовые файлы с ненайденными в словаре словами уже в базовых формах с разбивкой по парадигмам, а именно - существительные на -ТЕЛЬ, на -СТКА и так далее. Этап визуального контроля конечно нельзя полностью исключить, но рутина хорошо автоматизирована.

Морфология

В правила морфологического анализа добавлена для затравки работа с ФИО, точнее с одним видом из множества. В тестах морф. анализатора можно найти такие предложения:

А.С.Пушкин - великий поэт
А.С.Пушкин - великий русский поэт и писатель, написавший множество произведений, ставших классикой
А.С.Пушкин сочинил большое количество стихов
Мы читаем стихи и повести А.С.Пушкина
Давайте поищем упоминание об этом у А.С.Пушкина
Краткая биография А.С.Пушкина
На первой странице книги была размещена краткая биография А.С.Пушкина

Теперь морф. анализатор нормально обрабатывает практически все предложения из "Синтаксический рабор предложения: справочник школьника" О.Д.Ушаковой, помимо всяких других конструкций, общим числом более 2600 предложений. Английский анализатор, кстати, в качестве тестовых предложений использует всячину из Живой грамматики английского языка К. Эккерсли и М. Маколея, хотя сейчас там сделана только половина - около 1030 предложений.

Грубо говоря задача - сделать корректный разбор предложений, которые встречаются в заданиях в объеме средней школы. Для синтаксического анализатора цель точно такая же.

текущие планы, статистика, морфологический разбор текста, Английский язык, лексикон, Морфологический анализ, лексика

Previous post Next post
Up