Im Vergleich zu Q-Lernalgorithmen können Richtlinien-Gradienten-Methoden:
Mit kontinuierlichen Aktionsräumen umgehen.
Sind einfacher zu implementieren.
Bieten immer optimale Lösungen.
Erfordern weniger Trainingsepisoden.

Maschinelles Lernen Übungen werden geladen ...