Утилита для генерации правил снятия "внешней гетерогенной" омонимии из размеченного эталонного корпуса вроде бы заработала. Посмотрю еще, как она будет справляться при увеличении объемов и насколько окажутся эффективными правила.
Теперь можно прикинуть алгоритмическую задачку на перспективу: ошибки в тексте - пропуск слов.
(
Read more... )