#1244431
Упорядочите следующие шаги при использовании алгоритма Policy Gradients для обучения модели:
Варианты ответа:
  • собираем данные для обучения, играя взаимодействуя с окружением на основе текущей стратегии
  • определяем архитектуру модели и оптимизационную функцию
  • вычисляем градиенты функции потерь по параметрам модели
  • обновляем параметры модели, используя градиенты из предыдущего шага
Курсы в категории: Экономика и управление