Разбор работы http://arxiv.org/abs/1511.06388 и ответ ailev.

Nov 25, 2015 22:14

1) Я посмотрел на эту конкретную работу (кстати, отличный разбор есть здесь: https://news.ycombinator.com/item?id=10612685Read more... )

Leave a comment

kelijah May 6 2016, 10:49:23 UTC
>б) дополнить вектор слова морфологическими и синтаксическими признаками в явном виде. Существенное повышение точности.

Интересный вопрос с такими добавками...
С одной стороны можно и добавить.
С другой сложно остановиться, можно ведь в явном виде встроить в embedding еще и какую-то онтологию. выделить одно дополнительное изменение для кошек, одно - для чашек, и так далее.
Нейромодель получения встраиваний интересна как раз тем, что она строит все сама из сырья, без вмешательства. А тут мы с паяльником...

Reply

buriy May 6 2016, 16:16:06 UTC
>Строит все сама из сырья, без вмешательства. А тут мы с паяльником ( ... )

Reply

kelijah May 6 2016, 17:18:53 UTC
Запоминать все возможные варианты корректных словосочетаний в нейросети - это не очень хорошее ее использование. Особенно если учитывать, что множество слов открыто. Их нельзя запомнить в принципе, даже просто список слов. Всегда найдется умник, который придумает на ходу новое слово, комбинируя известные корень, приставку и суффикс и получая новую лексическую единицу.

Поэтому не понимаю, зачем пытаться решить априори нерешаемую сетками задачу, добавляя измерения в вектор признаков слова. Есть же более подходящие механизмы.

Reply

buriy May 6 2016, 18:10:36 UTC
>Особенно если учитывать, что множество слов открыто. Их нельзя запомнить в принципе, даже просто список слов. Всегда найдется умник, который придумает на ходу новое слово, комбинируя известные корень, приставку и суффикс и получая новую лексическую единицу.
Это, конечно, задачу усложняет, но подавляющее большинство слов не меняются за 5 или даже 20 лет, а новых слов добавляется не так уж много.

>Поэтому не понимаю, зачем пытаться решить априори нерешаемую сетками задачу, добавляя измерения в вектор признаков слова. Есть же более подходящие механизмы.
О, так значит, предмета спора всё-таки нет. Но ведь пытаются решить эту "априори нерешаемую сетками задачу" решить, и именно сетками. Ничего не получается, и я объясняю, почему именно, и рассматриваю варианты, как задачу всё же можно было бы решить.
Если у тебя есть ещё варианты -- то, конечно, давай обсудим.

Reply

kelijah May 7 2016, 04:35:25 UTC
Мне показалось, что один из предлагаемых тобой вариантов решения - добавлять в continuous embedding дополнительные измерения, куда руками вписывать еще признаки.

Тупиковый же путь.

А так да, embeddings вроде полезны при решении старых добрых задач NLP. Иногда.

Reply

kelijah May 8 2016, 16:17:23 UTC
>Если у тебя есть ещё варианты -- то, конечно, давай обсудим.

У меня по этому поводу в голове крутятся два варианта.

1. Neural Turing Machine и вообще все, что основано на полной дифференцируемости и применимости backprop'а. Сама идея красива. Может так оно и в мокрых сетях, хотя как всегда природа умеет придумывать много вариантов под разные задачи, так что это наверняка не единственный подход.

2. Но вообще если присмотреться на тот же word2vector и его порты, то там применяется вполне работоспособный трюк, когда сетка не обременяется хранением всей матрицы. Вместо этого векторы слов хранятся как обычный массив прямого доступа, и векторы подгружаются и сохраняются обратно по мере обработки контекстов.

Reply

buriy May 6 2016, 18:12:23 UTC
И всё же не забывай, что мой пост был ответом на пост ailev, в котором утверждалось, что word embeddings помогут нам достигнуть новых высот в онтологиях и ИИ.

Reply


Leave a comment

Up