Да вот кажется, что тут можно не только с параметрами алгоритма обучения, но и с архитектурой нейросети поиграть...
А проблема такая. Есть массив двоичных последовательностей длины N, таких, что число ноликов и единичек в каждой последовательности одинаково (если N нечетно, то отличается на единицу). То есть всего таких последовательностей К=C^N_{N/2}.
Мы в нашей работе особо не упарывались, брали N=24, и тогда K=2.7e6. Но в принципе N может быть больше. При той постановке задачи, которую я описываю, - до N=36. В этом случае счет идет на миллиарды.
Каждой последовательности i=1..K приписывается неотрицательное число psi_i (т.н. амплитуды волновой функции) и знак sign_i.
Из всего этого огромного сета мы можем тем или иным способом выделить training set меньшего размера (и вот тут уже есть физическое ограничение, - размер этого сета должен скейлиться линейно по N и в идеале не превышать 10^4 * N). Можно это делать случайно, а можно смотреть на амплитуды psi_i как на распределение вероятностей и сформировать training set by sampling from this distribution.
И задача состоит в том, чтобы как можно лучше предсказать знаки sign_i на элементах полного сета, не вошедших в training set.
Ну вообще да, очень бинарно! А какую сеть вы использовали? Наверное, мне нужно почитать статью. Я так понимаю, в последовательности нулей и единиц есть смысл, то есть spatial correlation between the inputs? Потому что если вводные зависят от положения в векторе, как пиксели в картинке, то шанс есть у convolutional NNs. Обыкновенной сети в таком не разобраться!
Бинарная последовательность строится по состояниям частиц в кристалле. По сути, считай, что нолики и единички расставлены в вершинах одной из решеток на Рис. 1. Поэтому да, spatial correlations очень важны.
Мы пробовали наивные dense networks для всех трех решеток, и CNN - для квадратной (в принципе, можно ее и для треугольной решетки сделать, но мы поленились). Как сделать CNN для решетки кагоме не очень понятно.
Но пока кажется, что в тех режимах, где все плохо, и CNN справляются только за счет брутфорса - очень большого количества параметров.
А проблема такая. Есть массив двоичных последовательностей длины N, таких, что число ноликов и единичек в каждой последовательности одинаково (если N нечетно, то отличается на единицу). То есть всего таких последовательностей К=C^N_{N/2}.
Мы в нашей работе особо не упарывались, брали N=24, и тогда K=2.7e6. Но в принципе N может быть больше. При той постановке задачи, которую я описываю, - до N=36. В этом случае счет идет на миллиарды.
Каждой последовательности i=1..K приписывается неотрицательное число psi_i (т.н. амплитуды волновой функции) и знак sign_i.
Из всего этого огромного сета мы можем тем или иным способом выделить training set меньшего размера (и вот тут уже есть физическое ограничение, - размер этого сета должен скейлиться линейно по N и в идеале не превышать 10^4 * N). Можно это делать случайно, а можно смотреть на амплитуды psi_i как на распределение вероятностей и сформировать training set by sampling from this distribution.
И задача состоит в том, чтобы как можно лучше предсказать знаки sign_i на элементах полного сета, не вошедших в training set.
Reply
Reply
Мы пробовали наивные dense networks для всех трех решеток, и CNN - для квадратной (в принципе, можно ее и для треугольной решетки сделать, но мы поленились). Как сделать CNN для решетки кагоме не очень понятно.
Но пока кажется, что в тех режимах, где все плохо, и CNN справляются только за счет брутфорса - очень большого количества параметров.
Reply
Leave a comment