Welcher der folgenden Algorithmen ist ein Actor-Critic-Algorithmus?
Q-Learning
Advantage Actor-Critic (A2C)
Overlook minor misbehaviors
Impose harsh punishments for any infraction

Maschinelles Lernen Übungen werden geladen ...