сложность алгоритма вероятностной модели и поисковка

Dec 21, 2012 19:20

Декодер статистически обучаемого POS tagger'а - O(n).
Разница для бессловарной морфологии и словарной - только в коэффициенте.
Поэтому не вижу каких-то принципиальных препятствий для того, чтобы использовать POS tagger внутри индексатора.
Это, в теории, должно снизить количество ложных срабатываний поиска, например когда для запроса "село" в выдаче появятся документы с "сесть" и "севший" (такой грубый, но наглядный пример).

вероятностная русская морфология, вероятностная модель, pos tagger, поисковый движок

Previous post Next post
Up