NER датасет из каггла "text-normalization-challenge-russian-language"

Jul 06, 2019 20:45


Вот эти данные для entity типа DATA содержат огромное количество строк типа

Проверено 1 января 2016 . International Renaissance Foundation.
Проверено 16 января 2016 . Смотрим телевизор . | 16 января 2016
Проверено 21 февраля 2016 . Текмаш отметил 160 летие . | 21 февраля 2016

Уверен на 100%, что данные получены простой конвертацией викиданных из русской Википедии. Возможно, для некоторых моделей NER перекос в статистике паттернов будет снижать немного их качество. Ну и мусора там, конечно, прилично:

People ( 27 августа 2001 ) .
Deadline.com ( 17 ноября 2014 ) .
ESCToday ( 19 марта 2012 ) .

и т.д.

dataset, ner, kaggle

Previous post Next post
Up