Синтагрус, UDPipe и Spacy

May 15, 2020 16:57

Синтагрус - один из самых популярных корпусов для тренировки русскоязычных POS tagger'ов и парсеров.
И у этой всеобщности есть обратная сторона, о которой не следует забывать.

Тестовый пример: состоится сегодня встреча с мужчиной ?

Выдача UDPipe:

+-----------+------------+-------+----------------------------------------------------------------------------+--------+
| form | lemma | upos | feats | deprel |
+-----------+------------+-------+----------------------------------------------------------------------------+--------+
| состоится | состояться | VERB | Aspect=Perf Mood=Ind Number=Sing Person=3 Tense=Fut VerbForm=Fin Voice=Mid | root |
| сегодня | сегодня | ADV | Degree=Pos | advmod |
| встреча | встреча | NOUN | Animacy=Inan Case=Nom Gender=Fem Number=Sing | nsubj |
| с | с | ADP | | case |
| мужчиной | мужчина | NOUN | Animacy=Inan Case=Ins Gender=Fem Number=Sing | nmod |
| ? | ? | PUNCT | | punct |
+-----------+------------+-------+----------------------------------------------------------------------------+--------+

Выдача Spacy, который я тоже переобучил с нуля на синтагрусе:

+-----------+-------+----------------------------------------------------------------------------+
| form | pos | tags |
+-----------+-------+----------------------------------------------------------------------------+
| состоится | VERB | Aspect=Perf|Mood=Ind|Number=Sing|Person=3|Tense=Fut|VerbForm=Fin|Voice=Mid |
| сегодня | ADV | Degree=Pos |
| встреча | NOUN | Animacy=Inan|Case=Nom|Gender=Fem|Number=Sing |
| с | ADP | |
| мужчиной | NOUN | Animacy=Inan|Case=Ins|Gender=Fem|Number=Sing |
| ? | PUNCT | |
+-----------+-------+----------------------------------------------------------------------------+

Если присмотреться к слову "мужчиной", то можно увидеть нежданчик в виде "Gender=Fem".
В обучающем корпусе это слово именно в этой форме, но, разумеется с Gender=Masc, встречается 2 раза.

syntagrus, part-of-speech tagging, синтагрус, udpipe, spacy, machine learning, pos tagger

Previous post Next post
Up