Использование моделей word2vec: kelijah

kelijah

Использование моделей word2vec

Feb 20, 2015 16:07

Сергей у себя в презентации http://servponomarev.livejournal.com/7076.html не упомянул еще одну специфическую задачу, где можно попробовать использовать векторные модели лексикона: выбор между альтернативными вариантами построения дерева зависимостей при синтаксическом анализе текста.

Опишу один случай, где использование word2vec может оказаться полезным.
Допустим, анализируется предложение:

Дети и телевизор не смотрели.

Присоединение существительного "телевизор" допускает несколько альтернатив, среди которых две очень близки по достоверности:

1. как в "Дети и взрослые не смотрели".
2. как в "Дети телевизор не смотрели".

То есть "телевизор" может быть либо частью сложного подлежащего, или объектом.
Помимо прочих способов (семантика - неодушевленный объект обычно не умеет смотреть, статистика - телевизор часто смотрят), можно попробовать оценивать близость слова (леммы или формы) телевизор к альтернативным родителям "дети" и "смотрели".

синтаксический разбор, vector space model, word2vec, dependency parser, синтаксический анализатор, word embedding