Решаемые задачи в сеточных char-моделях: kelijah

kelijah

Решаемые задачи в сеточных char-моделях

Oct 18, 2016 18:32

В большинстве случаев модели учились строить для любого слова вектор заранее заданной фиксированной длины. Как можно использовать получаемый вектор:

1) Данный вектор можно использовать прямо для определения “фонетической” схожести двух слов.

2) Можно пытаться получать word2vector вектор слова, и таким образом выполнять встраивание несловарных токенов в ранее построенное w2v пространство векторов.

3) Можно построить цепочку символов с помощью второй рекуррентной сетки, взяв char-вектор слова. Так можно выполнять устранение опечаток (см. далее про denoising autoencoder), лемматизацию.

4) Можно натренировать вторую сетку выполнять классификацию слов по частям речи. Небольшая тактическая хитрость позволяет делать это достаточно качественно.

5) Можно натренировать вторую рекуррентную сетку выдавать список грамматических признаков слова (вид глагола, время, число, падеж и так далее).

6) Можно натренировать сетку-аппроксиматор выдавать для двух заданных векторов слов вероятность их синтаксического связывания без учета контекста, то есть проверять согласованность форм слов.

нейросети, character language model, char-rnn, language model, neuronet, machine learning