Модель phrase2vector с использованием binary sparse distributed vectors для представления слов

May 30, 2016 10:11

Модель: sequence2sequence
Представление слов: binary sparse distributed vectors размерностью 2048 и средним числом единичных значение 54
Скрытый слой и разрядность phrase vector: 128 элементов
Обучающий набор: 90,000 перефразировок длиной 1...8 слов

Иногда проскакивают неплохие результаты кодирования-декодирования:

потом улыбнулся и спросил ==> и(0.8,  5) засмеялся(0.5,  4) и(0.8,  5) спросил(0.6,  2) молочком(0.2,0.1) то(0.3,0.09) сдохла(0.2,0.07) чуяло(0.2,0.07) сдохла(0.2,0.07) чуяло(0.2,0.07) сдохла(0.2,0.07) сдохла(0.2,0.07)

минут десять пройдет ==> семь(0.6,  4) минут(0.6,  4) прошло(0.6,  5) выкидывать(0.2,0.1) день(0.2,0.08) молодцы(0.2,0.08) выложу(0.2,0.08) молодцы(0.2,0.08) вот(0.2,0.08) молодцы(0.2,0.08) вот(0.2,0.08) вот(0.2,0.08)

становилось все хуже ==> все(  1,  7) стало(0.7,  4) хуже(0.6,  4) снимем(0.3,0.3) усмехнулись(0.1,0.08) исправлял(0.2,0.07) смягчило(0.2,0.07) смягчило(0.2,0.07) смягчило(0.2,0.07) смягчило(0.2,0.07) смягчило(0.2,0.07) смягчило(0.2,0.07)

ты думаешь ==> ты(  1,  6) ты(0.8,  4) думаешь(0.5,  1) новосельем(0.3,0.2) нади(0.3,0.08) друг(0.3,0.07) друг(0.2,0.07) это(0.3,0.07) друг(0.2,0.07) это(0.3,0.07) друг(0.3,0.07) это(0.3,0.07)

где то плачет женщина ==> где(0.7,  4) то(0.7,  5) то(0.9,  5) смеется(0.6,  3) илона(0.2,0.1) тратится(0.3,0.07) намекает(0.2,0.07) обыгрывается(0.2,0.07) обыгрывается(0.2,0.07) обыгрывается(0.2,0.07) обыгрывается(0.2,0.07) обыгрывается(0.2,0.07)

теперь это вам известно ==> теперь(0.7,  4) вам(0.7,  5) это(0.9,  6) известно(0.5,  3) порно(0.2,0.1) раздвоенным(0.2,0.09) льстила(0.2,0.07) продержался(0.2,0.07) продержался(0.2,0.07) продержался(0.2,0.07) продержался(0.2,0.07) продержался(0.2,0.07)

Пока главная проблема качества - декодер при восстановлении предложения из вектора фразы обычно подбирает максимум 2-3 слова,затем фактически выдает пустоту (векторы с очень маленькой длиной):

вор восхищенно присвистнул ==> засмеялся(0.6,  3) кашлянул(0.7,  4) смачно(0.6,  3) священнослужителей(0.3,0.2) отдыхало(0.3,0.09) это(0.3,0.08) это(0.3,0.07) это(0.3,0.07) это(0.3,0.07) это(0.3,0.07) это(0.3,0.07) это(0.3,0.07)

война разорила ее ==> ее(0.9,  5) ее(0.9,  5) разорила(0.5,  4) строящуюся(0.2,0.1) разговорилась(0.2,0.08) окрестностями(0.1,0.07) собственники(0.2,0.07) окрестностями(0.2,0.07) окрестностями(0.2,0.07) окрестностями(0.2,0.07) окрестностями(0.2,0.07) окрестностями(0.2,0.07)

нейросети, vector space model, sequence2sequence, lstm, rnn, рекуррентные сети, vector model, word embedding

Previous post Next post
Up