Хотелось бы обойтись без этого безобразия с негативным сэмплингом.
Сколько раз в разных задачах приходилось это делать - всегда начинались шаманские пляски по поводу сколько негативных сэмплов брать на один позитивный, да как обеспечить хорошее обобщение и т.д., да чтобы небольшие вариации в текстовке негативного сэмпла не приводили к диким скачкам выдаваемой оценки и т.д.
1) Просто назначаю веса приводящие к 1:1(2) и не парюсь особо превышением негатива над позитивом. В конце концов негатива и так в разы больше при реальном применении, и тут главное что бы просто уйти из локального оптимума при обучении
2) "Компаратор" на выходе должен быть "максимально тупым", иначе мешает обучаться шареной сети которая собственно и преобразует к некому "хешу" сравниваемое.
Ну да в компараторе выбрать что лучше умножение или вычитание "методом проб и ошибок", так оно и так всё такое :).
3) Для обобщения большего готовый glove (или свой word2vec).
Comments 3
Reply
Хотелось бы обойтись без этого безобразия с негативным сэмплингом.
Сколько раз в разных задачах приходилось это делать - всегда начинались шаманские пляски по поводу сколько негативных сэмплов брать на один позитивный, да как обеспечить хорошее обобщение и т.д., да чтобы небольшие вариации в текстовке негативного сэмпла не приводили к диким скачкам выдаваемой оценки и т.д.
Reply
1) Просто назначаю веса приводящие к 1:1(2) и не парюсь особо превышением негатива над позитивом.
В конце концов негатива и так в разы больше при реальном применении, и тут главное что бы просто уйти из локального оптимума при обучении
2) "Компаратор" на выходе должен быть "максимально тупым", иначе мешает обучаться шареной сети которая собственно и преобразует к некому "хешу" сравниваемое.
Ну да в компараторе выбрать что лучше умножение или вычитание "методом проб и ошибок", так оно и так всё такое :).
3) Для обобщения большего готовый glove (или свой word2vec).
Reply
Leave a comment