Обучающий датасет для русскоязычного POS Tagger'а (880 тысяч предложений)

Feb 20, 2020 10:35

В репозитории rupostagger выложен архив samples.gz

Этот архив содержит мой полный текущий датасет для обучения модели частеречной разметки для русского языка.

Объем датасета - примерно 880 тысяч предложений.

Морфологическая разметка в основном следует рекомендациям Universal Dependencies, за исключением некоторых второстепенных деталей. В частности, не используется класс DET, вместо него указывается ADJ.

dataset, датасеты, частеречная разметка, pos tagger

Previous post Next post
Up