Dec 21, 2012 19:20
Декодер статистически обучаемого POS tagger'а - O(n).
Разница для бессловарной морфологии и словарной - только в коэффициенте.
Поэтому не вижу каких-то принципиальных препятствий для того, чтобы использовать POS tagger внутри индексатора.
Это, в теории, должно снизить количество ложных срабатываний поиска, например когда для запроса "село" в выдаче появятся документы с "сесть" и "севший" (такой грубый, но наглядный пример).
вероятностная русская морфология,
вероятностная модель,
pos tagger,
поисковый движок