Инженерный подход: ushastyi

ushastyi

Инженерный подход

Apr 09, 2017 00:55

В курсе по машинному обучению есть лекция, даже две, по Restricted Boltzmann machine (RBM, Ограниченная машина Больцмана). Это такая специальным образом устроенная сеть, которая может "выучить" распределение данных на входе (в статистическом или вероятностном смысле), и потом использоваться, например, для фильтрации или восстановления входа по его неполному или искаженному образу. Теория были известна в общих чертах с конца 80х, но обучались такие сети тяжело, пока хинтон в 2002г не придумал очень эффективный алгоритм обучения, который заменял вычисление градиента его аппроксимацией. В статье 2010г, написано буквально следующее:

"The learning works well even though it is only crudely approximating the gradient of the log prob- ability of the training data (Hinton, 2002). The learning rule is much more closely approximating the gradient of another objective function called the Contrastive Divergence (Hinton, 2002) which is the difference between two Kullback-Liebler divergences, but it ignores one tricky term in this objective function so it is not even following that gradient. Indeed, Sutskever and Tieleman have shown that it is not following the gradient of any function (Sutskever and Tieleman, 2010). Nevertheless, it works well enough to achieve success in many significant applications."

Примерный перевод:

Алгоритм обучения работает хорошо несмотря на то, что он очень грубо апроксимирует градиент [вероятности того, что модель "распознает" тестовые данные]. Он лучше апроксимирует градиент другой целевой функции, которая называется Contrastive Divergence [придумана Хинтоном], равной разности между двумя расстояниями Кульбака-Лейблера, но он игнориует важное свойство этой функции и не следует градиенту. На самом деле, Сутскевер и Тильман показали, что алгоритм не следует градиенту никакой функции. Но он работает достаточно хорошо, чтобы приводить к успеху во многих приложениях.

То есть другими словами, оптимизируем совсем не то, но это работает. На самом деле, это пока единственный случай некоторого "жульничества", который мне попался в курсе. Во всем остальном строгая и хорошо обоснованная математика.

computer science, математика