Упорядочите следующие шаги при использовании алгоритма Po...

#1244431

Упорядочите следующие шаги при использовании алгоритма Policy Gradients для обучения модели:

Варианты ответа:

собираем данные для обучения, играя взаимодействуя с окружением на основе текущей стратегии
определяем архитектуру модели и оптимизационную функцию
вычисляем градиенты функции потерь по параметрам модели
обновляем параметры модели, используя градиенты из предыдущего шага

Тематика: Аутсорсинг и инсорсинг Робототехника Системы искусственного интеллекта

Курсы в категории: Экономика и управление