#1244506
Упорядочите следующие шаги в обучении модели Policy Gradients в порядке их выполнения:
Варианты ответа:
- генерация нескольких эпизодов с помощью текущей политики
- вычисление функции потери
- расчёт градиента функции потери по параметрам политики
- обновление параметров политики с помощью градиентного спуска
- повторение шагов a-d до достижения сходимости
Курсы в категории:
Математика и статистика