В
репозитории rupostagger выложен архив
samples.gz Этот архив содержит мой полный текущий датасет для обучения модели частеречной разметки для русского языка.
Объем датасета - примерно 880 тысяч предложений.
Морфологическая разметка в основном следует
рекомендациям Universal Dependencies, за исключением некоторых второстепенных деталей. В частности, не используется класс DET, вместо него указывается ADJ.