Организаторы
конкурса добавили еще 2 корпуса в обучающий набор (см. в
репозитории конкурса).
Если объединить все 3 корпуса, получается неплохой датасет для всякого машобуча по русским NLP.
Это хорошая новость.
Плохая новость в том, что форматы корпусов разные, различается состав колонок.
Вторая плохая новость - некоторая неконсистентность данные. В частности, лемматизация некоторых слов сделана систематически по-разному. Например, слово 'неё' в одном корпусе лемматизируется в 'он', в других в 'она'.
Это может мешать некоторым архитектурам машинного обучения по таким данным.
Поэтому я написал на питоне
небольшой конвертер, который на входе берет 3 файла с корпусами конкурса, преобразует их к одному формату, нормализует лемматизацию местоимений и некоторых наречий, и сохраняет 3 файла:
united_corpora.dat - объединенный корпус
united_corpora_train.dat - 90% объединенного корпуса (разбивка по предложениям) для тренировки
united_corpora_test.dat - 10% объединенного корпуса для верификации
Моя модель лемматизации, написанная на питоне и использующая сеточную модель на Keras, достигла сегодня на united_corpora_test.dat ошибаемости в 1.95% без учета регистра букв.