Leave a comment

Comments 2

metanymous December 10 2015, 17:06:43 UTC
Стратегия "самозарождения"

Но можно заставить робота хватать уж как придётся, и поощрять за каждую не выскользнувшую из захвата игрушку. Через примерно 50тыс. попыток (сегодняшние роботы тупы, они медленно учатся) наслаждаться тем, что игрушки прекратили выскальзывать!

Если применить такую стратегию оперантного формирования, то и человек потратит на обучение нечеловеческое время.

Это всё равно как заставить кого-то неумелого беспрерывно тыкать пальцами в клавиши и дожидаться, когда спонтанно раздастся гармоничная музыка. И после того выполнить акт поощрения.

Но, искусство дрессировки заключается в умении промежуточного паттернования конечного двигательного навыка. С тем, чтобы поощрять промежуточные элементы двигательной активности на пути к результативному финалу.

Reply

ailev December 10 2015, 19:54:58 UTC
Оперантное формирование в machine learning называют "обучение с умным учителем" -- там три вида (без учителя, когда не сообщают результатов успеха-неуспеха, а просто дают поисследовать мир, с учителем -- это когда просто сообщают заранее известный результат (учитель тут номинальный: просто размеченный набор данных на входе), и с умным учителем -- когда в зависимости от того, что вытворяет ученик с ответом, учитель подбирает следующие примеры для ускорения обучения или корректировки случайно выученных ошибок, корректирует знания ученика непосредственно в его голове или вообще что-то делает эдакое: т.е. интеллект есть не только у ученика, но и у учителя).

Тут ещё нужно учесть, что не всякий учитель знает, какое действие ведёт к успеху: машинное обучение регулярно выдаёт результаты, которые в голову не приходят людям (например, новые стратегии выигрыша в компьютерных играх, которые людям в голову просто не приходят).

Reply


Leave a comment

Up