У нас есть хороший способ обучения для таких систем -- это другая тема, давно разрабатываемая Хинтоном, дистилляция. В двух словах, дистилляция это обучение “студента” воспроизводить вероятностное распределение “учителя”. Плюс дистилляции в том, что распределение содержит намного больше информации, чем метка класса -- для 1024 классов это 10 бит
(
Read more... )