Comments | ailev: Рекомендация по стратегии

ailev

Рекомендация по стратегии

Sep 15, 2015 08:45

Пишу уже второму клиенту "Рекомендации по стратегии развития XXX" и понимаю, что важнейший в этих рекомендациях пункт будет недооценен и поэтому имеет все шансы быть не выполненным. Речь идёт об использовании глубоких нейронных сетей. Где? Ответ: везде. Как? Ответ: очень по-разному ( Read more... )

Leave a comment

Back to all threads

avlasov September 17 2015, 13:30:20 UTC

Вся тусовка глубокого обучения радостно цитировала вчера друг другу работу http://www.technologyreview.com/view/541276/deep-learning-machine-teaches-itself-chess-in-72-hours-plays-at-international-master/ -- десктоп научили играть в шахматы на уровне международного гроссмейстера за 72 часа. Самое интересное для меня в этой работе, что это демонстрация не столько мощности глубокого обучения, сколько его лёгкости. Это магистерский thesis, работа одного студента (http://arxiv.org/abs/1509.01549). Это доказательство, что глубокое обучение -- не rocket science. Что до сегодняшнего дня делала целая бригада опытных профессионалов-программистов, работая много лет в тесном сотрудничестве с опытными профессионалами-шахматистами, сегодня делает неглупый студент. Это глубокая ирония (pun intended), что выигравший у чемпиона мира в шахматы суперкомпьютер назывался Deep Blue. Это было в 1997 году (18 лет назад), это была работа большой команды людей, использовался суперкомпьютер -- https://ru.wikipedia.org/wiki/Deep_Blue. А сегодня это просто неглупый студент.

Вообще, прога не на уровне гроссмейстера играет, а на уровне International Master - рейтинг Elo 2400. У самых крутых програм оценка Elo рейтинга - 3200-3300, а это круче чем гроссмейстеры. На самом деле, эта прога очень далеко по крутости игры от топовых программ, но она интересна другим.
Ну и кагбэ 72 часа тренили одну оценочную функцию, а не прогу научили играть в шахматы - тут вообще понятие научили становится довольно муным.
Вообще, цель работы была чтобы прога сама научилась, и фишка как раз в том, что она училась, делая предсказания оценки позиции и корректируя их на основе будущих более точных оценок.
Под "сама научилась" аффтар имеет в виду что функция оценки позиции на основе более-менее стандартных низкоуровневых фич, ну и более высокоуровневые фичи были выучены с помощью дип лёрнинга (а не hand-crafted опытными программистами-шахматистами, как обычно).

Вобщем, если внимательно работу почитать, то совсем другое впечатление - да, студент молодец, реализовал несколько интересных вещей и, безусловно, новацию в компьютерных шахматах. Но мир в очередной раз не перевернулся. Hand-crafted фичи пока еще покруче и побыстрее.

Back to all threads