Comments | buriy: Разбор работы <a href="http://arxiv.org/abs/1511.06388" class="external">http://arxiv.org/abs/1511.06388</a> и ответ ailev.

buriy

Разбор работы http://arxiv.org/abs/1511.06388 и ответ ailev.

Nov 25, 2015 22:14

1) Я посмотрел на эту конкретную работу (кстати, отличный разбор есть здесь: https://news.ycombinator.com/item?id=10612685Read more... )

Comments 16

palex November 29 2015, 06:30:49 UTC

Не знаю, насколько подход соответствует Вашим выводам, но предложил такую структуру элементов языка:

( ... )

buriy November 29 2015, 11:17:29 UTC

Ваш подход, как говорится, doesn't scale. Таблицу из 40 элементов любую придумать можно. А все миллионы элементов языка разметить слабО?

palex November 29 2015, 13:25:42 UTC

Так уже четвертые уровни от краев предполагают отсутствие стандартной разметки. Зачем мне тягаться с Пушкиным, который применит "окривела" или "неведому зверушку" или "vali" ? :)

Речь о попытке стандартизации подхода к пониманию человеческого языка в конкретных контекстах, и обучение именно в контекстах, например - возглавить сопротивление или припаять сопротивление :).
А с возможностью выявления всех употреблений сочетаний букв через десять лет любой студент справится - хоть лингвист, хоть программист.

buriy November 29 2015, 17:32:46 UTC

А... А я думал это у вас просто 40 квадратиков... ;)

Thread 7

kelijah May 6 2016, 10:49:23 UTC

>б) дополнить вектор слова морфологическими и синтаксическими признаками в явном виде. Существенное повышение точности.

Интересный вопрос с такими добавками...
С одной стороны можно и добавить.
С другой сложно остановиться, можно ведь в явном виде встроить в embedding еще и какую-то онтологию. выделить одно дополнительное изменение для кошек, одно - для чашек, и так далее.
Нейромодель получения встраиваний интересна как раз тем, что она строит все сама из сырья, без вмешательства. А тут мы с паяльником...

buriy May 6 2016, 16:16:06 UTC

>Строит все сама из сырья, без вмешательства. А тут мы с паяльником ( ... )

kelijah May 6 2016, 17:18:53 UTC

Запоминать все возможные варианты корректных словосочетаний в нейросети - это не очень хорошее ее использование. Особенно если учитывать, что множество слов открыто. Их нельзя запомнить в принципе, даже просто список слов. Всегда найдется умник, который придумает на ходу новое слово, комбинируя известные корень, приставку и суффикс и получая новую лексическую единицу.

Поэтому не понимаю, зачем пытаться решить априори нерешаемую сетками задачу, добавляя измерения в вектор признаков слова. Есть же более подходящие механизмы.

buriy May 6 2016, 18:10:36 UTC

>Особенно если учитывать, что множество слов открыто. Их нельзя запомнить в принципе, даже просто список слов. Всегда найдется умник, который придумает на ходу новое слово, комбинируя известные корень, приставку и суффикс и получая новую лексическую единицу.
Это, конечно, задачу усложняет, но подавляющее большинство слов не меняются за 5 или даже 20 лет, а новых слов добавляется не так уж много.

>Поэтому не понимаю, зачем пытаться решить априори нерешаемую сетками задачу, добавляя измерения в вектор признаков слова. Есть же более подходящие механизмы.
О, так значит, предмета спора всё-таки нет. Но ведь пытаются решить эту "априори нерешаемую сетками задачу" решить, и именно сетками. Ничего не получается, и я объясняю, почему именно, и рассматриваю варианты, как задачу всё же можно было бы решить.
Если у тебя есть ещё варианты -- то, конечно, давай обсудим.

Thread 7

kelijah May 7 2016, 04:55:52 UTC

>А теперь вспомним, что только основных глаголов у нас 5000, и у каждого своя структура зависимых слов.... Это значит, нейросети, оперирующей нашими embeddings, для простенького SRL нужно уметь эти 5000 глаголов "узнавать" по embedding ( ... )

buriy May 7 2016, 05:46:57 UTC

С одной стороны, да -- ни один человек не говорит идеально.
С другой стороны -- "если человек знает манеры, и их намеренно иногда не соблюдает, то он эксцентричен, если он их не знает и не соблюдает -- то он просто ведёт себя как мудак".
Мне хотелось бы строить самоулучшающуюся модель понимания речи, а не модель, которая при запоминании одного слова или правила теряет другие слова или правила -- иначе от уровня ребёнка мы так никогда и не уйдём.