Так уже четвертые уровни от краев предполагают отсутствие стандартной разметки. Зачем мне тягаться с Пушкиным, который применит "окривела" или "неведому зверушку" или "vali" ? :)
Речь о попытке стандартизации подхода к пониманию человеческого языка в конкретных контекстах, и обучение именно в контекстах, например - возглавить сопротивление или припаять сопротивление :). А с возможностью выявления всех употреблений сочетаний букв через десять лет любой студент справится - хоть лингвист, хоть программист.
>б) дополнить вектор слова морфологическими и синтаксическими признаками в явном виде. Существенное повышение точности.
Интересный вопрос с такими добавками... С одной стороны можно и добавить. С другой сложно остановиться, можно ведь в явном виде встроить в embedding еще и какую-то онтологию. выделить одно дополнительное изменение для кошек, одно - для чашек, и так далее. Нейромодель получения встраиваний интересна как раз тем, что она строит все сама из сырья, без вмешательства. А тут мы с паяльником...
Запоминать все возможные варианты корректных словосочетаний в нейросети - это не очень хорошее ее использование. Особенно если учитывать, что множество слов открыто. Их нельзя запомнить в принципе, даже просто список слов. Всегда найдется умник, который придумает на ходу новое слово, комбинируя известные корень, приставку и суффикс и получая новую лексическую единицу.
Поэтому не понимаю, зачем пытаться решить априори нерешаемую сетками задачу, добавляя измерения в вектор признаков слова. Есть же более подходящие механизмы.
>Особенно если учитывать, что множество слов открыто. Их нельзя запомнить в принципе, даже просто список слов. Всегда найдется умник, который придумает на ходу новое слово, комбинируя известные корень, приставку и суффикс и получая новую лексическую единицу. Это, конечно, задачу усложняет, но подавляющее большинство слов не меняются за 5 или даже 20 лет, а новых слов добавляется не так уж много.
>Поэтому не понимаю, зачем пытаться решить априори нерешаемую сетками задачу, добавляя измерения в вектор признаков слова. Есть же более подходящие механизмы. О, так значит, предмета спора всё-таки нет. Но ведь пытаются решить эту "априори нерешаемую сетками задачу" решить, и именно сетками. Ничего не получается, и я объясняю, почему именно, и рассматриваю варианты, как задачу всё же можно было бы решить. Если у тебя есть ещё варианты -- то, конечно, давай обсудим.
>А теперь вспомним, что только основных глаголов у нас 5000, и у каждого своя структура зависимых слов.... Это значит, нейросети, оперирующей нашими embeddings, для простенького SRL нужно уметь эти 5000 глаголов "узнавать" по embedding
( ... )
С одной стороны, да -- ни один человек не говорит идеально. С другой стороны -- "если человек знает манеры, и их намеренно иногда не соблюдает, то он эксцентричен, если он их не знает и не соблюдает -- то он просто ведёт себя как мудак". Мне хотелось бы строить самоулучшающуюся модель понимания речи, а не модель, которая при запоминании одного слова или правила теряет другие слова или правила -- иначе от уровня ребёнка мы так никогда и не уйдём.
Comments 16
( ... )
Reply
Reply
Речь о попытке стандартизации подхода к пониманию человеческого языка в конкретных контекстах, и обучение именно в контекстах, например - возглавить сопротивление или припаять сопротивление :).
А с возможностью выявления всех употреблений сочетаний букв через десять лет любой студент справится - хоть лингвист, хоть программист.
Reply
Reply
Интересный вопрос с такими добавками...
С одной стороны можно и добавить.
С другой сложно остановиться, можно ведь в явном виде встроить в embedding еще и какую-то онтологию. выделить одно дополнительное изменение для кошек, одно - для чашек, и так далее.
Нейромодель получения встраиваний интересна как раз тем, что она строит все сама из сырья, без вмешательства. А тут мы с паяльником...
Reply
Reply
Поэтому не понимаю, зачем пытаться решить априори нерешаемую сетками задачу, добавляя измерения в вектор признаков слова. Есть же более подходящие механизмы.
Reply
Это, конечно, задачу усложняет, но подавляющее большинство слов не меняются за 5 или даже 20 лет, а новых слов добавляется не так уж много.
>Поэтому не понимаю, зачем пытаться решить априори нерешаемую сетками задачу, добавляя измерения в вектор признаков слова. Есть же более подходящие механизмы.
О, так значит, предмета спора всё-таки нет. Но ведь пытаются решить эту "априори нерешаемую сетками задачу" решить, и именно сетками. Ничего не получается, и я объясняю, почему именно, и рассматриваю варианты, как задачу всё же можно было бы решить.
Если у тебя есть ещё варианты -- то, конечно, давай обсудим.
Reply
Reply
С другой стороны -- "если человек знает манеры, и их намеренно иногда не соблюдает, то он эксцентричен, если он их не знает и не соблюдает -- то он просто ведёт себя как мудак".
Мне хотелось бы строить самоулучшающуюся модель понимания речи, а не модель, которая при запоминании одного слова или правила теряет другие слова или правила -- иначе от уровня ребёнка мы так никогда и не уйдём.
Reply
Leave a comment