Неудачная классификация слов сущ/не сущ с помощью char rnn/LSTM

Apr 20, 2016 20:24

1. Есть массив слов, у каждого из которых проставлен признак сущестительное / не существительное.  Массив получен из SQL русской словарной базы и содержит больше 3 миллионов словоформ, что вполне достаточно для обучения моделей.
Read more... )

нейросети, vector space model, unsupervised feature learning, русский язык, lstm, keras, rnn, рекуррентные сети, python, морфология, word embedding

Leave a comment

Comments 6

servponomarev April 21 2016, 04:25:25 UTC
Приветствую.

Внутреннее состояние нейронной сети является плохим фиче-вектором. По той причине, что каждый элемент этого вектора не объясним по отдельности, а смысл имеет только цельный вектор, без изъятий. Аналогия с векторами Word2Vec здесь полная. Сам вектор смысла не имеет, имеет смысл только расстояние между векторами.

Как бы в этом случае поступил я. Я бы собрал векторные репрезентации всех слов, кластеризовал их на некое количество кластеров (полагаю, в данном случае их не стоит делать много - пары десятков хватит), и для каждого слова вычислил расстояние от вектора этого слова к центру каждого кластера.

В результате получаем, что каждое слово у нас кодируется новым вектором, каждый элемент которого легко объясним через степень отношения к выделенным при кластеризации кластерам. И вот такой вектор уже можно использовать для подачи на вход другой нейронной сети или другого метода машинного обучения.

Я так делал в задаче классификации текстовых документов и получил весьма хорошие результаты. Reply

kelijah April 21 2016, 09:10:50 UTC
Привет, Сергей ( ... )

Reply

servponomarev April 21 2016, 09:59:17 UTC
> А чем этот вектор центра кластера будет лучше ( ... )

Reply

kelijah April 21 2016, 11:45:51 UTC
>Далее, выписываем n-граммы для каждого слова из словаря в строчку, и обучаем на этом наборе строк ( ... )

Reply


ext_3885069 November 8 2016, 03:33:12 UTC
Добрый день, возможно, что подход, описанный в статье Alexander Popov Deep Learning Architecture for Part-of-Speech Tagging with Word and Suffix Embeddings покажется Вам интересным.

Reply

kelijah November 8 2016, 08:49:04 UTC
Добрый день,
да, спасибо за ссылку, почитаем.

Reply


Leave a comment