https://habr.com/ru/post/475236 OpenAI Gym, Агент, Окружающая среда, Действия, Наблюдния, Вознагрождения, Ситуация, Решение, Марковский процесс, Состояние, Модель перехода состояний, Скидка, Ценность, Политика, Эпизод
https://towardsdatascience.com/dont-ever-ignore-reinforcement-learning-again-4d026ee81371