Продолжаем тему
http://kelijah.livejournal.com/169218.html.
Сделал вариант модели word2vector на
лемматизированном корпусе. Лемматизацию взял из результатов
частеречной разметки. Лемматизировны только существительные, прилагательные, глаголы и
наречия (компаративы приведены к нормальной форме).
В материалах по "семантической близости"
http://www.dialog-21.ru/digest/2015/ есть разные оценки пользы лемматизации для word2vector. У меня в прошлом году сложилось однозначное мнение, что лемматизация -скорее зло, дает сильное искажение распределения. Решил проверить еще раз на задаче word sense disambiguation.
Результаты не обманули ожиданий:
леммы, dim=500
Error count=13 (17,3333333333333%)
слова, dim=50
Error count=8 (10,6666666666667%)
Размерность для лемматизированной векторной модели больше на порядок, так как более компактный набор слов позволяет впихнуть модель в оперативку для 500, а для слов - уже нет. Кроме того, точность результатов зависит от размерности нелинейно, для слов прощупывается явный оптимум на 50-100. Для лемм точность немного растет при увеличении с 50 до 500, хотя дальше я проверять не стал.