Comments | kelijah: (BUG) Предказываемость word2vector признаков в предложении: ошибаемость <5%

kelijah

(BUG) Предказываемость word2vector признаков в предложении: ошибаемость <5%

Dec 05, 2014 21:42

PS: Да, баг найден, неправильно меряю. Хорошо, что так быстро нашелся :)Результат меня смущает и настораживает. Буду проверять и перепроверять. Потому что такого быть не может, но оно случилось. Итак ( Read more... )

нейросети, вероятностная русская морфология, вероятностная модель, word embedding, neuronet

Comments 4

wizzard0 December 5 2014, 22:45:22 UTC

мммм, так а что мы предсказываем? слово по слову?

kelijah December 6 2014, 04:29:54 UTC

да,
предсказываем вектор слова w[i+1] по вектору слова w[i].

servponomarev December 6 2014, 06:03:05 UTC

Мне кажется, что Bag of Words ( -cbow 0) более подходит для предсказания следующего слова в фразе.

kelijah December 6 2014, 06:38:41 UTC

Угу, надо проверить.

Но у меня пока стойкое ощущение, что где-то подлый косяк. Потому что сеть слишком мала, чтобы реально запомнить 2-грамную модель, несколько десятков миллионов пар для 21 Гб корпуса.

С другой стороны, я намерено сделал -window 3 -size 50, чтобы получить более синтаксическую, чем семантическую модель. Так что есть шансик, что фактически вектора описывают грамматические теги, а предсказывать теги - на порядки проще (http://kelijah.livejournal.com/131059.html). Я раньше пытался делать это же на 300-мерных векторах с -window 5, там на миллионе слов сеть продолжает болтаться в районе 60-70% ошибок (http://kelijah.livejournal.com/130340.html).

В общем, это был тычек пальцем в небо по ходу чтения диссера Сочера, где он описывает реккурентные автоэнкодеры для кодирования фраз. Необъяснимо удачный тычок.