Binary Sparse Distributed Vectors для слов и sequence 2 sequence модель с измененным оптимизатором

May 31, 2016 17:15

Векторы слов, как и раньше, имеют длину 2048, со средним числом единиц ~54
Вектор фразы, создаваемый кодирующей группой LSTM, имеет длину 1024.
Модель необычно хорошо (и даже подозрительно хорошо) научилась делать перестановки слов в предложениях.
Выдача второй, синтезирующей части, очищена от шума, чтобы лучше воспринималась на глаз (после символов ==> выдается результат синтеза предложения из его вектора):

2 итерации:
----------------
надо же куда то деть себя ==> куда же то то то себя
платить придется ==> платить платить платить
коко почувствовал страх ==> коко почувствовал коко
что то случилось ==> что что то
незаметно пролетела ночь ==> ночь пролетела ночь

13 итераций:
----------------
компромисс был достигнут ==> был достигнут компромисс
ты что нибудь понимаешь ==> ты нибудь что нибудь
мама что делает ==> что делает мама
покой вам нужен ==> вам вам нужен
двери открываются ключами ==> ключами ключами открываются

18 итераций
------------
прошло часа полтора ==> прошло два часа
странный сегодня день ==> сегодня странный день
покрывало адвокат ==> адвокат адвокат
лично выполнил проверку ==> лично лично выполнил
где купить ==> где купить купить

lstm, deep learning, rnn, sparse distributed representation, phrase2vector, word embedding, sequence2sequence

Previous post Next post
Up