Richtlinien-Gradienten-Methoden: Interaktive Lern-Quizze für Maschinelles Lernen

Question 1

Welcher wesentliche Unterschied besteht zwischen den Actor-Critic-Algorithmen A2C und PPO in Bezug auf ihren Update-Mechanismus?

Accepted Answer

A2C verwendet einen synchronen, während PPO einen asynchronen Update-Mechanismus.

Answer

A2C ist deterministisch, während PPO stochastisch ist.

Answer

A2C hat eine höhere Sample-Effizienz als PPO.

Answer

A2C ist für kontinuierliche Aktionsräume ausgelegt, während PPO für diskrete Aktionsräume.

Question 2

Welche der folgenden Aussagen beschreibt Richtlinien-Gradienten-Methoden am besten?

Accepted Answer

Optimieren Sie Richtlinienparameter direkt, um die erwartete Belohnung zu maximieren.

Answer

Erfordern die Modellierung der Umgebungsdynamik.

Answer

Kann nur in diskreten Aktionsräumen angewendet werden.

Answer

Sind immer deterministisch.

Question 3

In einer Actor-Critic-Architektur:

Accepted Answer

Beide Aussagen treffen zu.

Answer

Bewertet der Kritiker den Wert der aktuellen Politik.

Answer

Verwendet der Akteur den Wert des Kritikers, um seine Politik zu verbessern.

Answer

Keine der Aussagen trifft zu.

Question 4

Welche der folgenden Anwendungen eignet sich für Richtlinien-Gradienten-Methoden?

Accepted Answer

Kontinuierliche Steuerung

Answer

Objektdetektion

Answer

Natürliche Sprachverarbeitung

Answer

Finanzen

Question 5

Im Vergleich zu Q-Lernalgorithmen können Richtlinien-Gradienten-Methoden:

Accepted Answer

Mit kontinuierlichen Aktionsräumen umgehen.

Answer

Erfordern weniger Trainingsepisoden.

Answer

Bieten immer optimale Lösungen.

Answer

Sind einfacher zu implementieren.

Question 6

Die Richtlinien-Gradienten-Formel berechnet:

Accepted Answer

Der Gradient der Verlustfunktion in Bezug auf Richtlinienparameter.

Answer

Der erwartete Wert der Belohnungsfunktion.

Answer

Die optimale Politik für eine bestimmte Umgebung.

Answer

Die Wahrscheinlichkeit, dass der Agent eine bestimmte Aktion ausführt.

Question 7

Ein wesentlicher Unterschied zwischen Richtlinien-Gradienten-Methoden und Wertfunktionsmethoden besteht darin, dass:

Accepted Answer

Richtlinien-Gradienten-Methoden optimieren Richtlinienparameter, während Wertfunktionsmethoden Wertfunktionen optimieren.

Answer

Wertfunktionsmethoden erfordern die Kenntnis der Umgebungsdynamik.

Answer

Richtlinien-Gradienten-Methoden sind deterministisch.

Answer

Wertfunktionsmethoden können den Erkundungs-Exploit-Trade-off nicht behandeln.

Question 8

Welcher Algorithmus ist ein Beispiel für einen Richtlinien-Gradienten-Algorithmus?

Accepted Answer

REINFORCE

Answer

Q-Learning

Answer

SARSA

Answer

Deep Q-Network (DQN)

Question 9

Welcher der folgenden Algorithmen ist ein Actor-Critic-Algorithmus?

Accepted Answer

Advantage Actor-Critic (A2C)

Answer

Q-Learning

Answer

SARSA

Question 10

Welche Metrik wird üblicherweise zur Bewertung der Leistung eines kontinuierlichen Steuerungsmodells verwendet?

Accepted Answer

Mittlerer quadratischer Fehler

Answer

Belohnungsfunktion

Answer

Genauigkeit

Question 11

Welche Anwendung der Policy-Gradient-Methoden liegt in der Robotik?

Accepted Answer

Navigation autonomer Systeme

Answer

Objekterkennung

Answer

Spracherkennung

Question 12

Welche der folgenden Aussagen zum Actor-Critic-Algorithmus ist falsch?

Accepted Answer

Der Critic verwendet erwartungsbasiertes Lernen (expected value).

Answer

Der Actor approximiert die Richtlinie.

Answer

Der Critic approximiert den Zustand-Wert.

Question 13

Welches Problem kann bei der Verwendung von Actor-Critic-Algorithmen mit großen Aktionsräumen auftreten?

Accepted Answer

Dimensionskatastrophe

Answer

Überanpassung

Answer

Konvergenzprobleme

Question 14

Welche Funktion wird in Actor-Critic-Algorithmen durch den Akteur approximiert?

Accepted Answer

Die Richtlinie

Answer

Die Wertfunktion

Answer

Die Zustandsübergangsfunktion

Answer

Die Belohnungsfunktion

Question 15

Welcher Vorteil ergibt sich aus der Verwendung kontinuierlicher Richtlinien?

Accepted Answer

Ermöglicht Steuerungen in einem kontinuierlichen Aktionsraum

Answer

Verbessert die Stabilität des Lernprozesses

Answer

Verringert die Rechenkosten

Question 16

Welche Architektur wird üblicherweise für moderne Richtlinien-Gradienten-Methoden verwendet?

Accepted Answer

Neuronale Netze

Answer

Entscheidungsbäume

Answer

Lineare Regressionsmodelle

Answer

Stützvektormaschinen (SVMs)

Question 17

Welches Kriterium wird zur Bewertung der Leistung einer Richtlinie verwendet?

Accepted Answer

Belohnung

Answer

Genauigkeit

Answer

Fehler

Answer

Kosten

Question 18

Welche Technik wird eingesetzt, um die Varianz der Gradientenschätzung in Richtlinien-Gradienten-Methoden zu reduzieren?

Accepted Answer

Basislinienkorrektur

Answer

Fehlergewichtung

Answer

Regularisierung

Answer

Monte-Carlo-Schätzung

Question 19

Welcher Algorithmus kombiniert die Vorteile von Richtlinien-Gradienten-Methoden und wertbasierten Methoden?

Accepted Answer

Actor-Critic mit Wertfunktion

Answer

Monte-Carlo-Baumsuche (MCTS)

Answer

SARSA

Answer

Deep Q-Learning

Question 20

In welchen Bereichen finden Richtlinien-Gradienten-Methoden typischerweise Anwendung?

Accepted Answer

Kontinuierliche Steuerung, Robotik, Spielintelligenz

Answer

Datenanalyse, Empfehlungssysteme, Betrugserkennung

Answer

Bildverarbeitung, Spracherkennung, medizinische Diagnose

Question 21

Welcher der folgenden Sätze beschreibt das Hauptziel von Policy-Gradient-Methoden am besten?

Accepted Answer

Die Aktionswahrscheinlichkeitsverteilung anzupassen, um die erwartete Belohnung zu maximieren.

Answer

Die optimale Aktionssequenz für alle Zustände zu berechnen.

Answer

Die Varianz der Aktionsverteilung zu minimieren.

Question 22

Welche architektonische Komponente ist in Actor-Critic-Algorithmen üblich?

Accepted Answer

Getrennte Akteur- und Kritikernetzwerke

Answer

Nur ein Kritikernetzwerk

Answer

Nur ein Akteurnetzwerk

Question 23

Mit welcher Methode wird typischerweise die Aktionswahrscheinlichkeitsverteilung in Policy-Gradient-Methoden parametrisiert?

Accepted Answer

Eine Politikfunktion

Answer

Eine Belohnungsfunktion

Answer

Eine Zustandsübergangsfunktion

Answer

Eine Wertfunktion

Question 24

Welcher Algorithmus schätzt den Gradienten für Policy-Gradient-Methoden unter Verwendung von Monte-Carlo-Simulation?

Accepted Answer

REINFORCE

Answer

Policy Gradient Methods

Answer

Proximal Policy Optimization

Answer

Advantage Actor-Critic

Question 25

Warum werden Actor-Critic-Algorithmen häufig in der kontinuierlichen Steuerung eingesetzt?

Accepted Answer

Sie können Gradienteninformationen aus nicht-differenzierbaren Umgebungen liefern.

Answer

Sie konvergieren schneller als andere Reinforcement-Learning-Algorithmen.

Answer

Sie sind einfacher zu implementieren als Policy-Gradient-Methoden.

Question 26

Welche Technik wird eingesetzt, um die Varianz im Gradientenschätzer von Policy-Gradient-Methoden zu reduzieren?

Accepted Answer

Basislinienkorrektur

Answer

Dropout

Answer

Early Stopping

Answer

Regularisierung

Question 27

Welcher Algorithmus verwendet eine Clipping-Funktion, um die Stabilität in Policy-Gradient-Methoden zu verbessern?

Accepted Answer

Proximal Policy Optimization

Answer

REINFORCE

Answer

Advantage Actor-Critic

Answer

Deep Deterministic Policy Gradient

Question 28

Welches Bewertungsverfahren wird üblicherweise verwendet, um die Leistung von Policy-Gradient-Methoden zu messen?

Accepted Answer

Episodische Belohnung

Answer

Kreuzvalidierung

Answer

Mittlere quadratische Abweichung

Answer

Klassifizierungsgenauigkeit

Question 29

**Erhöhen Actor-Critic-Algorithmen im Vergleich zu reinen Richtlinien-Gradienten-Methoden die Varianz der Gradientenschätzungen?

Accepted Answer

Nein, sie verringern sie.

Answer

Sie haben keinen Einfluss auf die Varianz.

Answer

Ja, sie erhöhen sie.

Question 30

Wie wird der Prozess der Anpassung der Richtlinienparameter in Richtlinien-Gradienten-Methoden bezeichnet?

Accepted Answer

Richtlinien-Update

Answer

Aktionsauswahl

Answer

Zustandsaktualisierung

Answer

Wertfunktions-Update

Question 31

Welche Funktion in Actor-Critic-Algorithmen schätzt den Wert von Zuständen?

Accepted Answer

Wertfunktion

Answer

Entropiefunktion

Answer

Aktionswertfunktion

Answer

Richtlinienfunktion

Question 32

Welches Prinzip ist die Grundlage von Richtlinien-Gradienten-Methoden?

Accepted Answer

Politerhöhungssatz

Answer

Bellman-Gleichung

Answer

Bayes-Theorem

Answer

Mittelwertsatz

Question 33

Mit welcher Metrik wird die Leistung kontinuierlicher Steuerungsrichtlinien gemessen?

Accepted Answer

Mittlere episodische Belohnung

Answer

F1-Score

Answer

AUC-ROC

Answer

Klassifizierungsgenauigkeit

Question 34

Welche Richtlinienarchitektur wird in Actor-Critic-Algorithmen häufig verwendet?

Accepted Answer

Neuropaler Netzwerkstapel

Answer

Entscheidungsbaum

Answer

Lineare Regression

Answer

Support Vector Machine

Question 35

Welche Variante von Richtlinien-Gradienten-Methoden lernt deterministische Richtlinien?

Accepted Answer

Deterministische Richtlinien-Gradienten

Answer

SARSA

Answer

Value Iteration

Answer

Q-Learning

Question 36

In welchem Anwendungsbereich sind Richtlinien-Gradienten-Methoden besonders vorteilhaft?

Accepted Answer

Kontinuierliche Steuerung

Answer

Spracherkennung

Answer

Maschinelle Übersetzung

Answer

Bildklassifizierung

Question 37

Welche der folgenden Aussagen beschreibt am prägnantesten das grundlegende Ziel von Policy-Gradient-Methoden?

Accepted Answer

Ermittlung einer Richtlinie, die die langfristige erwartete Belohnung für gegebene Zustände maximiert.

Answer

Optimierung der Aktionswahrscheinlichkeiten für jeden Zustand.

Answer

Schätzung der Wertfunktion für jeden möglichen Zustand.

Question 38

Was ist ein Actor-Critic-Algorithmus im Kontext von Policy-Gradient-Methoden?

Accepted Answer

Ein Algorithmus, der einen Actor zur Generierung von Aktionen und einen Critic zur Schätzung der Wertfunktion verwendet, um eine Richtlinie zu lernen.

Answer

Ein Algorithmus, der nur einen Critic verwendet, um die Wertfunktion zu schätzen.

Question 39

Welche Funktion wird in Policy-Gradient-Methoden verwendet, um den Gradienten der erwarteten Belohnung zu schätzen?

Accepted Answer

Richtliniengradient

Answer

Aktionswertfunktion

Answer

Zustandswertfunktion

Answer

Wertfunktion

Question 40

Wie können Policy-Gradient-Methoden für Umgebungen mit verzögerter Belohnung angepasst werden?

Accepted Answer

Durch Verwendung von Bewertungsfunktionen

Answer

Durch Verringern der Entropieregularisierung

Answer

Durch ausschließliche Verwendung von Basislinien

Answer

Durch Erhöhen der Lernrate

Question 41

Welche der folgenden Aussagen beschreibt eine Einschränkung von Policy-Gradient-Methoden?

Accepted Answer

Sie können instabil werden, insbesondere in Umgebungen mit hohem Dimensionsgrad.

Answer

Sie erfordern immer Zugriff auf ein Modell der Umgebung.

Answer

Sie sind immer deterministisch.

Question 42

Welcher der folgenden Algorithmen ist ein Actor-Critic-Algorithmus?

Accepted Answer

Actor-Critic

Answer

Q-Learning

Answer

SARSA

Answer

REINFORCE

Question 43

Welche der folgenden Aussagen beschreibt Richtlinien-Gradienten-Methoden korrekt?

Accepted Answer

Sie aktualisieren Richtlinienparameter, um den Erwartungswert einer Belohnungsfunktion zu maximieren.

Answer

Sie erfordern das Wissen über das Umgebungsmodell.

Answer

Sie verwenden eine Wertfunktion, um die Richtlinie direkt zu aktualisieren.

Question 44

Welche Funktion wird in Richtlinien-Gradienten-Methoden verwendet, um den Gradienten des erwarteten Belohnungswerts abzuschätzen?

Accepted Answer

Aktionswahrscheinlichkeitsdichtefunktion

Answer

Wertfunktion

Answer

Transitionswahrscheinlichkeitsfunktion

Answer

Q-Funktion

Question 45

Welche der folgenden Anwendungen ist für Richtlinien-Gradienten-Methoden besonders geeignet?

Accepted Answer

Kontinuierliche Steuerung in Robotik und Videospielen

Answer

Maschinelle Übersetzung

Answer

Bilderkennung

Question 46

Welches Kriterium ist für die Stabilität von Actor-Critic-Algorithmen entscheidend?

Accepted Answer

Niedrige Varianz der Schätzungen des Aktionswerts

Answer

Hoher Erkundungsgrad

Answer

Lange Zeitschritte

Answer

Große Netzwerkarchitektur

Question 47

Welche der folgenden Aussagen beschreibt die Rolle des Kritikers in Actor-Critic-Algorithmen korrekt?

Accepted Answer

Er schätzt den erwarteten Belohnungswert für einen gegebenen Zustand und eine gegebene Aktion.

Answer

Er bestimmt die Richtung der Richtlinienaktualisierung.

Answer

Er erkundet den Aktionsraum.

Question 48

Welche der folgenden Beschreibungen trifft am besten auf die Policy-Gradient-Methode zu?

Accepted Answer

Sie approximiert den Gradienten der Zielfunktion bezüglich der Richtlinienparameter.

Answer

Sie bestimmt eine optimale Richtlinie mithilfe eines Modells.

Answer

Sie maximiert direkt die Zielfunktion.

Question 49

Welcher der folgenden Algorithmen ist ein Actor-Critic-Algorithmus?

Accepted Answer

REINFORCE

Answer

Bellman-Backpropagation

Answer

Policy Iteration

Answer

Q-Learning

Question 50

Für welche der folgenden Anwendungen eignen sich Policy-Gradient-Methoden besonders gut?

Accepted Answer

Kontinuierliche Steuerung

Answer

Spracherkennung

Answer

Routenplanung

Answer

Spielautomaten

Question 51

Welche Technik kann die Varianz der Policy-Gradient-Schätzung verringern?

Accepted Answer

Verwendung einer Basislinienfunktion

Answer

Erhöhung der Anzahl der Episoden

Answer

Verwendung eines deterministischen Richtlinienmodells

Answer

Verringerung der Lernrate

Question 52

Welche Metrik wird typischerweise zur Bewertung der Leistung von Policy-Gradient-Methoden herangezogen?

Accepted Answer

Kumulative Belohnung

Answer

Receiver Operating Characteristic Curve (ROC)

Answer

Fehlerquote

Answer

Präzision

Question 53

Welche der folgenden Techniken kann die Konvergenz von Policy-Gradient-Methoden beschleunigen?

Accepted Answer

Trust Region Policy Optimization (TRPO)

Answer

Dynamisches Programmieren

Answer

Verstärktes Lernen mit Grenzwerten

Answer

Model Predictive Control (MPC)

Question 54

Welche praktische Überlegung ist bei der Anwendung von Policy-Gradient-Methoden von besonderer Bedeutung?

Accepted Answer

Stabilität und Sicherheit

Answer

Minimale Datenanforderungen

Answer

Einfache Implementierung

Answer

Hohe rechnerische Effizienz

Question 55

Was ist das grundlegende Prinzip von Richtlinien-Gradienten-Methoden im Bereich des maschinellen Lernens?

Accepted Answer

Direkte Optimierung der Policy durch Berechnung des Gradienten der Belohnung.

Answer

Optimierung der Wertfunktion, um die beste Policy zu finden.

Answer

Simulation aller möglichen Aktionen und Auswahl derjenigen mit der höchsten Belohnung.

Answer

Verwendung von Entscheidungsbäumen, um die beste Policy zu erlernen.

Question 56

Welcher der folgenden Algorithmen ist ein Beispiel für einen Actor-Critic-Algorithmus?

Accepted Answer

Advantage Actor-Critic (A2C)

Answer

Q-Learning

Answer

SARSA

Answer

Deep Q-Network (DQN)

Question 57

Welche der folgenden Metriken wird üblicherweise verwendet, um die Leistung von Richtlinien-Gradienten-Methoden in einem Reinforcement Learning-Problem zu bewerten?

Accepted Answer

Kumulierte Belohnung pro Episode

Answer

F1-Score

Answer

Mittlerer absoluter Fehler der Wertfunktion

Answer

Genauigkeit der Klassifikation

Question 58

Welche der folgenden Anwendungen ist besonders gut geeignet für die Verwendung von Richtlinien-Gradienten-Methoden?

Accepted Answer

Steuerung eines Roboterarms, um Objekte zu greifen

Answer

Klassifizieren von Bildern

Answer

Vorhersagen von Aktienkursen

Answer

Übersetzen von Texten

Question 59

Was ist der Hauptunterschied zwischen deterministischen und stochastischen Richtlinien-Gradienten-Algorithmen?

Accepted Answer

Deterministische Algorithmen wählen immer die gleiche Aktion für einen gegebenen Zustand, während stochastische Algorithmen eine Aktion aus einer Wahrscheinlichkeitsverteilung wählen.

Answer

Stochastische Algorithmen sind besser für diskrete Zustandsräume geeignet.

Answer

Deterministische Algorithmen sind immer effizienter als stochastische Algorithmen.

Question 60

Was ist der Hauptvorteil von Actor-Critic-Algorithmen gegenüber traditionellen Richtlinien-Gradienten-Methoden?

Accepted Answer

Reduzierung der Varianz der Gradientenschätzungen, was zu einer stabileren und effizienteren Optimierung führt.

Answer

Möglichkeit, längere Sequenzen von Aktionen zu verarbeiten.

Answer

Verbesserte Konvergenzgeschwindigkeit bei komplexen Problemen.

Question 61

Welche der folgenden Aussagen über Richtlinien-Gradienten-Methoden ist falsch?

Accepted Answer

Sie funktionieren nur in vollständig beobachtbaren Umgebungen, in denen der Agent alle relevanten Informationen über den aktuellen Zustand erhält.

Answer

Sie können rechenintensiv sein, insbesondere bei komplexen Problemen.

Answer

Sie benötigen in der Regel eine große Menge an Trainingsdaten, um gute Ergebnisse zu erzielen.

Question 62

Welche der folgenden Herausforderungen ist bei der Implementierung von Richtlinien-Gradienten-Methoden besonders relevant?

Accepted Answer

Die Schätzung des Gradienten der Belohnung kann mit hoher Varianz behaftet sein, was zu instabilen Trainingsverläufen führt.

Answer

Mangelnder Speicherplatz für die Speicherung von Trainingsdaten.

Answer

Fehlerhafte Implementierung der Rückwärtspropagation.

Answer

Überanpassung an die Trainingsdaten.

Question 63

Welche der folgenden Eigenschaften ist **kein** Vorteil von Richtlinien-Gradienten-Methoden?

Accepted Answer

Deterministische Politik

Answer

Effiziente Gradientenschätzung

Answer

Einfache Implementierung

Answer

Anwendbarkeit auf kontinuierliche Steuerungsprobleme

Question 64

Welche Aussage über Actor-Critic-Algorithmen ist **richtig**?

Accepted Answer

Sie verwenden zwei separate Netzwerke: einen Akteur (Actor) und einen Kritiker (Critic).

Answer

Sie benötigen große Mengen an Trainingsdaten.

Answer

Sie sind nicht für kontinuierliche Steuerungsprobleme geeignet.