Путь к конкретным идеям : dvuobyomnyi

dvuobyomnyi

Путь к конкретным идеям

Oct 19, 2019 10:19

http://iichan.hk/b/res/4964046.html#4967151

>>4966870

Я сейчас буду объяснять (тебе и другим), как связать мои идеи с конкретными техническими идеями. Это отвечает на твой вопрос в общем. Но после этого я дам и конкретный ответ.

Вот главный текст ещё раз:
https://boiinthenut-rationalityisbad.blogspot.com/2019/10/1.html

Предупреждаю, что если идеи не прочитаны/не поняты, то не все моменты в моём объяснении ниже будут понятны. Просто считай их набором обещаний тогда и проси объяснить подробнее те обещания, которые кажутся наиболее интересными, хорошо? Текст вышел большой, читай о том что тебе интересно.

В тексте есть теории о мышлении человека, от которых самих по себе должно быть можно спуститься к технике (но точно не уверен, поэтому и хочу обсудить). Однако можно взяться за дело конкретнее, анализируя вот такие вещи:

Берём Adaptive resonance theory
https://en.wikipedia.org/wiki/Adaptive_resonance_theory
С описанными идеями мы можем сказать, чего в этом представлении не хватает на концептуальном уровне (здесь "сравнение + шаблон" это супер-слой относительно распознающего слоя. пояснить, почему?), а значит и о том, чего не хватает на техническом (если заявленная связь между уровнями тут правда есть. А может быть даже без концептуального уровня сможем что-то сказать о техническом).
Тут связь между слоями из моей идеи и слоями нейронов точно не только в слове.
https://en.wikipedia.org/wiki/Adaptive_resonance_theory#Types
С идеями мы можем проанализировать "костыли", которыми пытались улучшить эту идею, дать этим костылям фундаментальный аналог (супер-слой). Костыли это конкретные частные (выполняющие какую-то специфическую функцию) "слои" (тут уже не обязательно в смысле "слои нейронов"), которые пытаются вшить в сеть вместо полноценного супер-слоя. При этом и сама концепция ART вся может оказаться костылём, см. выше, тогда это уже костыли в квадрате. Мы должны быть способны как минимум улучшить эти костыли, придав им свойств "истинной идеи", за которую берётся большой текст (должны поверить в эту идею и проверить её). Нам не обязательно просто отрицать и выбрасывать эти костыли, мы можем улучшить любой и двигаться постепенно.
Наши решения будут лежать вообще в другой плоскости относительно этих решений. Наши идеи будут способны применяться к улучшению любого из решений.

Знаете, как развивалась квантовая механика? Она сначала просто придавала классическим понятиям более интересные свойства. Она стала новым уровнем идей относительно классических понятий, обогащая каждое классическое понятие. Супер-слои для того же, для превращения "скучных" идей в "интересные" (если наши интересы совпадут).

Берём статью:
https://arxiv.org/abs/1604.00289
С идеями можем сказать, что не так с идеей "упрощённого физдвижка". И почему идея “Bayesian theory-of-mind” плоха, каких свойств ей недостаёт и почему это пока костыль. Можем проанализировать, что не так с "Bayesian Program Learning (BPL)". Не просто пропагандировать что-то своё, а пытаться именно усовершенствовать каждую конкретную идею.

Берём заметку о технических идеях Трансформера и других сетей:
https://nostalgebraist.tumblr.com/post/185326092369/the-transformer-explained
Здесь нам понадобится понятие "симметрии" из текста. "Симметрия" это грубо говоря свойство. Просто "симметрия" обычно связана с множеством вещей-штук (иногда аморфных) и поэтому слово "свойство" на её месте бы путало, так как не всегда есть чёткий ответ на вопрос - "Свойство чего?". "Симметрия" это отношение между штуками. "Симметрия" может быть как костылём, так и супер-слоем. "Симметрии" это (в каком-то смысле) то же, что уровни, о которых писал выше.
То что обсуждается заметкой по ссылке выше в (1), (2), (3) это конкретные симметрии "слоя" нейросети (не знаю, 'слоя' ли нейронов в привычном понимании), которым она собирает данные, как я понял (или обсуждается что-то чуть более глубокое), [обсуждается] и то какие симметрии в данных они позволяют заметить.
В (4) Attention описывается, как было решено добавить симметрию, которая [говорю забегая вперёд] привела к революции. "self-attention" это "сила связи" из п.9 большого текста.
В (4b) описываются "слои" (параметры key/query/value), которые являются частью супер-слоя, соединяющего слова.
С идеями сможем улучшить это, но надо будет немного подробнее разобраться, что именно делают штуки выше и к чему они переходят от анализа связей слов.

Берём вот эту архитектуру:
https://en.wikipedia.org/wiki/Neocognitron
В ней "C-cells" это супер-слой относительно "S-cells", придающий обычным S-паттернам С-симметрии. Разберёмся - улучшим.
Эта сеть похожа на один приём в физике, как мне кажется:
https://youtu.be/V5kgruUjVBs?t=391

(Внимание на картинку справа:)
https://en.wikipedia.org/wiki/Deep_learning#Definition
С идеями мы можем предложить альтернативы этому скучному представлению (тупое собирание паттерна по частям).

С помощью опыта классификации шахматных позиций/с помощью идей из текста могу сказать, чего не хватает этой идее на примере анализа изображений (или может на любом другом конкретном примере):
https://en.wikipedia.org/wiki/Neural_gas
https://ru.wikipedia.org/wiki/Нейронный_газ
https://www.youtube.com/watch?v=XtC1M7nrDk0
Здесь обычные "объекты/слои" это сгустки "газа".
https://en.wikipedia.org/wiki/Self-organizing_map#Learning_algorithm
https://en.wikipedia.org/wiki/Self-organizing_map#Interpretation

https://en.wikipedia.org/wiki/Viola-Jones_object_detection_framework
Здесь обычный слой/обычные (заранее и жёстко заданные) "симметрии" это "Haar Features". А супер-слоя нет, разве что какой-то механизм генерации этих штук (его не понял).

Можем взять все эти идеи:
https://en.wikipedia.org/wiki/Scale-invariant_feature_transform
https://en.wikipedia.org/wiki/Edge_detection
generalized cylinders (Thomas Binford)
https://en.wikipedia.org/wiki/Shape_context
И подумать, какие супер-слои (супер-симметрии) им можно добавить.
Здесь обычные объекты это циллиндры, точки, углы, "features".

Всякие статистические трансформации данных это тоже частные симметрии, о которых можно подумать не только на математическом уровне. Особенно в контексте всяких парадоксов (типа Raven paradox).
nostalgebraist тоже писал о статистике разное.
https://nostalgebraist.tumblr.com/tagged/you-just-gotta-place-your-faith-in-a-theorem-called-bayes

Можно затронуть психологию:
https://en.wikipedia.org/wiki/Ideasthesia#In_normal_perception
Первая описанная по ссылке теория была о простом сравнении, а вторая о супер-слое (множество разных возможных сравнений влияют на результат). (И это не всё, что с помощью идей можно сказать о второй теории!)
https://en.wikipedia.org/wiki/Mirror_neuron
Можно вникнуть в теории о разных функциях всяких уже открытых в человеке штуках, если в этом есть смысл по сравнениею с шансами выше (улучшить нейросети).

Зеркальные нейроны в разных теориях выполняют (неизбежно) роль каких-то симметрий.

Разные правила поиска это тоже "симметрии": https://en.wikipedia.org/wiki/Alpha-beta_pruning https://en.wikipedia.org/wiki/Monte_Carlo_tree_search#Advantages_and_disadvantages Обычные объекты здесь это варианты/оценки, а супер-слой это правила влияния вариантов и оценок друг на друга.

Любое [математическое] понятие это "симметрия". Мучения математиков с определением высших категорий, значит, или заменой равенства на эквивалентность это мучения с вводом каких-то симметрий.

В этом "физическом" видео говорится об идее, которая является симметрией (все электроны - один электрон), которая была вдохновлена другой симметрией (все электроны одинаковы). Её анализируют, выводя из неё симметрии-следствия (мы должны наблюдать одинаковое количество электронов и позитронов, т.к. электрон должен возвращаться назад во времени каждый раз), и полезные симметрии (позитроны - это электроны, идущие назад во времени) могут становиться частью отдельных теорий:
https://www.youtube.com/watch?v=9dqtW9MslFk

В большом тексте аналогия с нейронной сетью напрашивается сама (для меня так), причём не раз.

В тексте есть гипотеза, что низкоуровневые свойства разделяются и "специализируются" для детектирования высокоуровневых объектов. Из этого же должно хоть что-то следовать? Это аналог представления, что высокоуровневые объекты собираются из низкоуровневых как из конструктора. В тексте есть и другие идеи, но их сложнее описать (но я опишу, если надо).

> Почему именно слои нейронов являются твоими слоями? Выглядит так, будто связывает их только имя. Ведь может быть архитектура сети и без явных слоёв.

По-моему ты не с той стороны заходишь! Слои не обязаны быть слоями нейронов, это да. Но если ты уже выбрал ту архитектуру, в которой слои, то велика вероятность, что это не единственная связь. То есть первое и второе твои предложения это совсем разные шутки! Надеюсь, мне удалось ответить по сути выше?

Я понимаю, что это тоже моя вина (не пояснил это).

> Те "супер-слои", которые ты привёл для них вроде бы же на самом деле не делают вообще ничего с этими самыми слоями нейронов.

Не очень понял эту заметку, но мне удалось ответить выше?

> И где в этом случае бесконечность объектов?

Понял, что "бесконечность" это сбивающее слово. Говорил о "бесконечности" только потому что это самый общий случай. Объектами тогда могут быть нейроны. (Кстати, если слои "не явные" или вместо них что-то другое, это всё равно может быть слоями. Могу точно сказать, если будет конкретный пример.)

> Можешь ли ты дать этот пример в более чётком виде?

Удалось дать пример чётче выше?