#1244431
Упорядочите следующие шаги при использовании алгоритма Policy Gradients для обучения модели:
Варианты ответа:
- собираем данные для обучения, играя взаимодействуя с окружением на основе текущей стратегии
- определяем архитектуру модели и оптимизационную функцию
- вычисляем градиенты функции потерь по параметрам модели
- обновляем параметры модели, используя градиенты из предыдущего шага
Курсы в категории:
Экономика и управление