1. Есть массив слов, у каждого из которых проставлен признак сущестительное / не существительное. Массив получен из SQL русской словарной базы и содержит больше 3 миллионов словоформ, что вполне достаточно для обучения моделей. ( Read more... )
Внутреннее состояние нейронной сети является плохим фиче-вектором. По той причине, что каждый элемент этого вектора не объясним по отдельности, а смысл имеет только цельный вектор, без изъятий. Аналогия с векторами Word2Vec здесь полная. Сам вектор смысла не имеет, имеет смысл только расстояние между векторами.
Как бы в этом случае поступил я. Я бы собрал векторные репрезентации всех слов, кластеризовал их на некое количество кластеров (полагаю, в данном случае их не стоит делать много - пары десятков хватит), и для каждого слова вычислил расстояние от вектора этого слова к центру каждого кластера.
В результате получаем, что каждое слово у нас кодируется новым вектором, каждый элемент которого легко объясним через степень отношения к выделенным при кластеризации кластерам. И вот такой вектор уже можно использовать для подачи на вход другой нейронной сети или другого метода машинного обучения.
Я так делал в задаче классификации текстовых документов и получил весьма хорошие результаты. Reply
Добрый день, возможно, что подход, описанный в статье Alexander Popov Deep Learning Architecture for Part-of-Speech Tagging with Word and Suffix Embeddings покажется Вам интересным.
Comments 6
Внутреннее состояние нейронной сети является плохим фиче-вектором. По той причине, что каждый элемент этого вектора не объясним по отдельности, а смысл имеет только цельный вектор, без изъятий. Аналогия с векторами Word2Vec здесь полная. Сам вектор смысла не имеет, имеет смысл только расстояние между векторами.
Как бы в этом случае поступил я. Я бы собрал векторные репрезентации всех слов, кластеризовал их на некое количество кластеров (полагаю, в данном случае их не стоит делать много - пары десятков хватит), и для каждого слова вычислил расстояние от вектора этого слова к центру каждого кластера.
В результате получаем, что каждое слово у нас кодируется новым вектором, каждый элемент которого легко объясним через степень отношения к выделенным при кластеризации кластерам. И вот такой вектор уже можно использовать для подачи на вход другой нейронной сети или другого метода машинного обучения.
Я так делал в задаче классификации текстовых документов и получил весьма хорошие результаты. Reply
Reply
Reply
Reply
Reply
да, спасибо за ссылку, почитаем.
Reply
Leave a comment