Jul 28, 2013 15:48
Сухим канцелярским языком:
1. Зарелизить текущую версию сразу после окончания тестов для переделанного сказуемого настояще-будущего времени.
2. Расширить модели управления для глаголов - переработать текущую реализацию учета видов обстоятельств, которые могут присоединяться к глаголу. Обстоятельства должны прикрепляться к глаголу разными типами ребер, вместо общего типа ATTRIBUTE в текущей версии. По крайней мере следующие типы обстоятельств должны учитываться такой системой: время, место, направление движения в/из, способ.
3. Переделать сборку глагольного предиката на восходяще-нисходящий алгоритм. В настоящий момент на этот алгоритм переведена сборка глагольного сказуемого без подлежащего, а правила соединения сказуемого и подлежащего пишутся отдельно. Это порождает большое количество правил в случаях, когда глагольные актанты отделены от глагола подлежащим, и восходящий алгоритм не видит их из-за того, что подлежащее мешает ему. Большая частотность таких конструкций в русском языке ("левой рукой он собаку подтолкнул") побуждает перевести подлежащее на тот же уровень, как другие текущие актанты глагола.
4. Довести объем эталонного корпуса до 200 тысяч предложений (~ миллион слов). Это повысит качество создаваемых статистических вероятностных моделей морфологии и синтаксиса.
5. Пополнение базы сочетаемости. Код, отвечающий за хранение и динамическую подгрузку прагматических правил, на данный момент переписан таким образом, что объем базы более не является лимитирующим фактором - в предыдущих версиях алгоритм был вынужден загружать и просматривать слишком много правил, что сильно тормозило парсинг. Теперь можно вносить в эту базу миллионы записей без большого удара по скорости разбора.
парсер,
синтаксический анализатор