Очень хорошая статья в «Атлантике» о Дугласе Хофштадтере (по-английски): «Человек, который учит машины думать». Вспомнил о ней в недавнем разговоре, думаю, надо поделиться, хоть она и четырехлетней давности
( Read more... )
Главный вопрос, однако, насколько высоко находятся вершины, соответствующие способностям работать, скажем, младшим программистом... Действительно ли, это настолько сложнее, чем водить автомобиль?
Другими словами, можно ли, пользуясь теперешними методами добраться до состояния, когда искусственные системы начнут полноценно участвовать в попытке "понять понимание" (задача "понять понимание", возможно, нам самим не по зубам, но, быть может, мы можем сделать системы, во взаимодействии с которыми её можно будет решить)... Оптимистичный взгляд на предмет, видимо, отражен здесь: https://arxiv.org/abs/1711.08378 (A DeepMind paper, "Building Machines that Learn and Think for Themselves: Commentary on Lake et al., Behavioral and Brain Sciences, 2017")...
The current methods are based on functional approximation techniques and are not very different from what we had 20 years ago. Most of the advances are in optimization (using stochastic gradient descent) and in the technology (GPU). I am not sure about the value of very deep networks. In fact, we see that for many non-vision related problems classical methods (kernels) are very competitive, if optimized properly (using new techniques, including SGD) on large data.
I am skeptical that there is enough water in these methods to cover the mountains. Self-driving is a relatively easy problem, given large data. Programming requires communication skills and a lot more.
Здесь определенный прогресс все же есть, все свалить на более мощное железо было бы не совсем верным. В прикладном плане есть несколько изобретений (ну не открытиями же их называть, в конце концов!): DBN, dropout, RBM; из последнего CTC; оживление старых идей, в первую очередь LSTM, решает проблему исчезающих градиентов - это действительно за счет увеличения вычислительной мощности, позволившего достать их из стола. Скомбинируйте LSTM и CTC, чтобы решать задачи seq2seq, и получается машпер лучше прежнего.
Но это все технологии, фундаментального знания это не прибавляет, конечно, тут Х. прав.
I mostly agree. Things like dropout are local improvements, not clear that there is anything fundamental there, even from the optimization point of view.
A more fundamental innovation in my view is systematic over-parametrization -- the number of parameters consistently exceeds the number of data points by a large margin. (It is also not new, strictly speaking). In any case, some of these things are real innovations in computing/optimization but their connection to AI is not clear.
Re: systematic over-parametrizationmisha_bMarch 18 2018, 20:26:15 UTC
Over-parametrization -> interpolation. Basically if you have a lot of parameters, you can fit your data exactly. It can be proved that for interpolated classifiers SGD is extremely efficient (one step of SGD with small mini-batch = one step of full gradient descent).
Why these interpolated classifiers generalize is not yet completely clear, but we know it has nothing to do with deep networks as such.
Re: systematic over-parametrizationny_quantMarch 18 2018, 21:53:45 UTC
If the number of parameters exceeds the number of data points by a large margin then you don't have a unique solution, whatever you're trying to optimize. It can't be that the whole family of solutions generalize.
Но я, наверное, не понимаю контекста, т.к. вторая фраза мне не понятна совсем.
Re: systematic over-parametrizationmisha_bMarch 18 2018, 23:11:45 UTC
You are correct, of course, these solutions are not unique. However, gradient descent appears to be selecting solutions with good generalization properties, at least when properly initialized.
For kernel methods, it is actually easy to understand as (stochastic) gradient descent converges to the minimum norm solution, which is very special (although we still don't have a solid theory for its generalization).
Re: systematic over-parametrizationny_quantMarch 19 2018, 23:35:10 UTC
К сожалению, ничего не знаю про kernel methods, но то обстоятельство, что (stochastic) gradient descent converges to the minimum norm solution выглядит как какая-то волшебная регуляризация.
Re: systematic over-parametrizationmisha_bMarch 19 2018, 23:55:37 UTC
You can simply think of linear regression. If the number of variables exceeds the number of equations, GD/SGD (initialized at zero) converge to the pseudo-inverse (minimum norm) solution. It is a bit magical but not hard to prove.
There seem to be a big variety these days, in some sense, almost more than one person can cover (such a large exploding field, difficult to describe all of the aspects of what's going on
( ... )
Reply
Главный вопрос, однако, насколько высоко находятся вершины, соответствующие способностям работать, скажем, младшим программистом... Действительно ли, это настолько сложнее, чем водить автомобиль?
Другими словами, можно ли, пользуясь теперешними методами добраться до состояния, когда искусственные системы начнут полноценно участвовать в попытке "понять понимание" (задача "понять понимание", возможно, нам самим не по зубам, но, быть может, мы можем сделать системы, во взаимодействии с которыми её можно будет решить)... Оптимистичный взгляд на предмет, видимо, отражен здесь: https://arxiv.org/abs/1711.08378 (A DeepMind paper, "Building Machines that Learn and Think for Themselves: Commentary on Lake et al., Behavioral and Brain Sciences, 2017")...
Reply
I am skeptical that there is enough water in these methods to cover the mountains. Self-driving is a relatively easy problem, given large data. Programming requires communication skills and a lot more.
Reply
Но это все технологии, фундаментального знания это не прибавляет, конечно, тут Х. прав.
Reply
A more fundamental innovation in my view is systematic over-parametrization -- the number of parameters consistently exceeds the number of data points by a large margin. (It is also not new, strictly speaking). In any case, some of these things are real innovations in computing/optimization but their connection to AI is not clear.
Reply
Reply
It can be proved that for interpolated classifiers SGD is extremely efficient (one step of SGD with small mini-batch = one step of full gradient descent).
Why these interpolated classifiers generalize is not yet completely clear, but we know it has nothing to do with deep networks as such.
Reply
Но я, наверное, не понимаю контекста, т.к. вторая фраза мне не понятна совсем.
Reply
For kernel methods, it is actually easy to understand as (stochastic) gradient descent converges to the minimum norm solution, which is very special (although we still don't have a solid theory for its generalization).
Reply
Reply
Reply
Reply
Reply
А что происходит если это не регрессия и есть много локальных минимумов?
Reply
> А что происходит если это не регрессия и есть много локальных минимумов?
А хрен его знает. Похоже, что нейронные сети делают что-то подобное, но как это конкретно устроено (если это действительно так) никто не знает.
Reply
Reply
Leave a comment