#1244506
Упорядочите следующие шаги в обучении модели Policy Gradients в порядке их выполнения:
Варианты ответа:
  • генерация нескольких эпизодов с помощью текущей политики
  • вычисление функции потери
  • расчёт градиента функции потери по параметрам политики
  • обновление параметров политики с помощью градиентного спуска
  • повторение шагов a-d до достижения сходимости
Курсы в категории: Математика и статистика