Лемматизировать корпус для word2vector или нет?: kelijah

kelijah

Лемматизировать корпус для word2vector или нет?

Oct 07, 2015 15:40

Продолжаем тему http://kelijah.livejournal.com/169218.html.
Сделал вариант модели word2vector на лемматизированном корпусе. Лемматизацию взял из результатов частеречной разметки. Лемматизировны только существительные, прилагательные, глаголы и наречия (компаративы приведены к нормальной форме).
В материалах по "семантической близости" http://www.dialog-21.ru/digest/2015/ есть разные оценки пользы лемматизации для word2vector. У меня в прошлом году сложилось однозначное мнение, что лемматизация -скорее зло, дает сильное искажение распределения. Решил проверить еще раз на задаче word sense disambiguation.
Результаты не обманули ожиданий:

леммы, dim=500
Error count=13 (17,3333333333333%)

слова, dim=50
Error count=8 (10,6666666666667%)

Размерность для лемматизированной векторной модели больше на порядок, так как более компактный набор слов позволяет впихнуть модель в оперативку для 500, а для слов - уже нет. Кроме того, точность результатов зависит от размерности нелинейно, для слов прощупывается явный оптимум на 50-100. Для лемм точность немного растет при увеличении с 50 до 500, хотя дальше я проверять не стал.

лемматизатор, word2vec, word sense disambiguation, word embedding, частеречная разметка, pos tagger