Comments | fregimus: Неуклонный прогресс

fregimus

Неуклонный прогресс

Mar 16, 2018 21:11

Очень хорошая статья в «Атлантике» о Дугласе Хофштадтере (по-английски): «Человек, который учит машины думать». Вспомнил о ней в недавнем разговоре, думаю, надо поделиться, хоть она и четырехлетней давности ( Read more... )

ai, science

Leave a comment

Back to all threads

misha_b March 17 2018, 15:30:23 UTC

Более правильной параллелью мне кажется поднимающася вода. Она может затопить равнины коммерческих приложений, но добраться то гор гораздо труднее.

anhinga_anhinga March 17 2018, 22:53:45 UTC

Да, это похоже на правду.

Главный вопрос, однако, насколько высоко находятся вершины, соответствующие способностям работать, скажем, младшим программистом... Действительно ли, это настолько сложнее, чем водить автомобиль?

Другими словами, можно ли, пользуясь теперешними методами добраться до состояния, когда искусственные системы начнут полноценно участвовать в попытке "понять понимание" (задача "понять понимание", возможно, нам самим не по зубам, но, быть может, мы можем сделать системы, во взаимодействии с которыми её можно будет решить)... Оптимистичный взгляд на предмет, видимо, отражен здесь: https://arxiv.org/abs/1711.08378 (A DeepMind paper, "Building Machines that Learn and Think for Themselves: Commentary on Lake et al., Behavioral and Brain Sciences, 2017")...

misha_b March 18 2018, 02:57:26 UTC

The current methods are based on functional approximation techniques and are not very different from what we had 20 years ago. Most of the advances are in optimization (using stochastic gradient descent) and in the technology (GPU). I am not sure about the value of very deep networks. In fact, we see that for many non-vision related problems classical methods (kernels) are very competitive, if optimized properly (using new techniques, including SGD) on large data.

I am skeptical that there is enough water in these methods to cover the mountains. Self-driving is a relatively easy problem, given large data. Programming requires communication skills and a lot more.

fregimus March 18 2018, 04:44:54 UTC

Здесь определенный прогресс все же есть, все свалить на более мощное железо было бы не совсем верным. В прикладном плане есть несколько изобретений (ну не открытиями же их называть, в конце концов!): DBN, dropout, RBM; из последнего CTC; оживление старых идей, в первую очередь LSTM, решает проблему исчезающих градиентов - это действительно за счет увеличения вычислительной мощности, позволившего достать их из стола. Скомбинируйте LSTM и CTC, чтобы решать задачи seq2seq, и получается машпер лучше прежнего.

Но это все технологии, фундаментального знания это не прибавляет, конечно, тут Х. прав.

misha_b March 18 2018, 14:41:24 UTC

I mostly agree. Things like dropout are local improvements, not clear that there is anything fundamental there, even from the optimization point of view.

A more fundamental innovation in my view is systematic over-parametrization -- the number of parameters consistently exceeds the number of data points by a large margin. (It is also not new, strictly speaking). In any case, some of these things are real innovations in computing/optimization but their connection to AI is not clear.

systematic over-parametrization ny_quant March 18 2018, 19:56:39 UTC

А что в этом хорошего?

Re: systematic over-parametrization misha_b March 18 2018, 20:26:15 UTC

Over-parametrization -> interpolation. Basically if you have a lot of parameters, you can fit your data exactly.
It can be proved that for interpolated classifiers SGD is extremely efficient (one step of SGD with small mini-batch = one step of full gradient descent).

Why these interpolated classifiers generalize is not yet completely clear, but we know it has nothing to do with deep networks as such.

Re: systematic over-parametrization ny_quant March 18 2018, 21:53:45 UTC

If the number of parameters exceeds the number of data points by a large margin then you don't have a unique solution, whatever you're trying to optimize. It can't be that the whole family of solutions generalize.

Но я, наверное, не понимаю контекста, т.к. вторая фраза мне не понятна совсем.

Re: systematic over-parametrization misha_b March 18 2018, 23:11:45 UTC

You are correct, of course, these solutions are not unique. However, gradient descent appears to be selecting solutions with good generalization properties, at least when properly initialized.

For kernel methods, it is actually easy to understand as (stochastic) gradient descent converges to the minimum norm solution, which is very special (although we still don't have a solid theory for its generalization).

Re: systematic over-parametrization ny_quant March 19 2018, 23:35:10 UTC

К сожалению, ничего не знаю про kernel methods, но то обстоятельство, что (stochastic) gradient descent converges to the minimum norm solution выглядит как какая-то волшебная регуляризация.

Re: systematic over-parametrization misha_b March 19 2018, 23:55:37 UTC

You can simply think of linear regression. If the number of variables exceeds the number of equations, GD/SGD (initialized at zero) converge to the pseudo-inverse (minimum norm) solution. It is a bit magical but not hard to prove.

Re: systematic over-parametrization ny_quant March 20 2018, 00:25:35 UTC

Должна быть простая геометрическая иллюстрация.

Re: systematic over-parametrization misha_b March 20 2018, 00:43:37 UTC

I will leave it as an exercise :)

Re: systematic over-parametrization ny_quant March 20 2018, 14:27:20 UTC

Смущает, что результат зависит от способа оптимизации.
А что происходит если это не регрессия и есть много локальных минимумов?

Re: systematic over-parametrization misha_b March 20 2018, 15:33:40 UTC

СмОтрите в корень :) -- тут дело в том что GD/SGD stays in the span of your data points. Поэтому, если инициализировать в нуле, то получается так.

> А что происходит если это не регрессия и есть много локальных минимумов?

А хрен его знает. Похоже, что нейронные сети делают что-то подобное, но как это конкретно устроено (если это действительно так) никто не знает.

anhinga_anhinga March 18 2018, 04:45:08 UTC

There seem to be a big variety these days, in some sense, almost more than one person can cover (such a large exploding field, difficult to describe all of the aspects of what's going on ( ... )

Back to all threads