Модель phrase2vector с использованием binary sparse distributed vectors для представления слов: kelijah

kelijah

Модель phrase2vector с использованием binary sparse distributed vectors для представления слов

May 30, 2016 10:11

Модель: sequence2sequence
Представление слов: binary sparse distributed vectors размерностью 2048 и средним числом единичных значение 54
Скрытый слой и разрядность phrase vector: 128 элементов
Обучающий набор: 90,000 перефразировок длиной 1...8 слов

Иногда проскакивают неплохие результаты кодирования-декодирования:

потом улыбнулся и спросил ==> и(0.8, 5) засмеялся(0.5, 4) и(0.8, 5) спросил(0.6, 2) молочком(0.2,0.1) то(0.3,0.09) сдохла(0.2,0.07) чуяло(0.2,0.07) сдохла(0.2,0.07) чуяло(0.2,0.07) сдохла(0.2,0.07) сдохла(0.2,0.07)

минут десять пройдет ==> семь(0.6, 4) минут(0.6, 4) прошло(0.6, 5) выкидывать(0.2,0.1) день(0.2,0.08) молодцы(0.2,0.08) выложу(0.2,0.08) молодцы(0.2,0.08) вот(0.2,0.08) молодцы(0.2,0.08) вот(0.2,0.08) вот(0.2,0.08)

становилось все хуже ==> все( 1, 7) стало(0.7, 4) хуже(0.6, 4) снимем(0.3,0.3) усмехнулись(0.1,0.08) исправлял(0.2,0.07) смягчило(0.2,0.07) смягчило(0.2,0.07) смягчило(0.2,0.07) смягчило(0.2,0.07) смягчило(0.2,0.07) смягчило(0.2,0.07)

ты думаешь ==> ты( 1, 6) ты(0.8, 4) думаешь(0.5, 1) новосельем(0.3,0.2) нади(0.3,0.08) друг(0.3,0.07) друг(0.2,0.07) это(0.3,0.07) друг(0.2,0.07) это(0.3,0.07) друг(0.3,0.07) это(0.3,0.07)

где то плачет женщина ==> где(0.7, 4) то(0.7, 5) то(0.9, 5) смеется(0.6, 3) илона(0.2,0.1) тратится(0.3,0.07) намекает(0.2,0.07) обыгрывается(0.2,0.07) обыгрывается(0.2,0.07) обыгрывается(0.2,0.07) обыгрывается(0.2,0.07) обыгрывается(0.2,0.07)

теперь это вам известно ==> теперь(0.7, 4) вам(0.7, 5) это(0.9, 6) известно(0.5, 3) порно(0.2,0.1) раздвоенным(0.2,0.09) льстила(0.2,0.07) продержался(0.2,0.07) продержался(0.2,0.07) продержался(0.2,0.07) продержался(0.2,0.07) продержался(0.2,0.07)

Пока главная проблема качества - декодер при восстановлении предложения из вектора фразы обычно подбирает максимум 2-3 слова,затем фактически выдает пустоту (векторы с очень маленькой длиной):

вор восхищенно присвистнул ==> засмеялся(0.6, 3) кашлянул(0.7, 4) смачно(0.6, 3) священнослужителей(0.3,0.2) отдыхало(0.3,0.09) это(0.3,0.08) это(0.3,0.07) это(0.3,0.07) это(0.3,0.07) это(0.3,0.07) это(0.3,0.07) это(0.3,0.07)

война разорила ее ==> ее(0.9, 5) ее(0.9, 5) разорила(0.5, 4) строящуюся(0.2,0.1) разговорилась(0.2,0.08) окрестностями(0.1,0.07) собственники(0.2,0.07) окрестностями(0.2,0.07) окрестностями(0.2,0.07) окрестностями(0.2,0.07) окрестностями(0.2,0.07) окрестностями(0.2,0.07)

нейросети, vector space model, sequence2sequence, lstm, rnn, рекуррентные сети, vector model, word embedding