Markow-EntscheidungsproblemBei dem Markow-Entscheidungsproblem (MEP, auch Markow-Entscheidungsprozess oder MDP für englisch Markov decision process) handelt es sich um ein Modell für Entscheidungsprobleme mit unsicheren Ergebnissen. Erstmalig beschrieben wurde das Modell 1957 von Richard Bellman. Seitdem findet es auf vielen Gebieten Beachtung, darunter Ökologie, Ökonomie, Gesundheitsversorgung, Telekommunikation und bestärkendes Lernen. Der Name geht zurück auf die Markow-Kette, die der russische Mathematiker Andrei Andrejewitsch Markow im frühen 20. Jahrhundert untersucht hat. Eine Markow-Kette beschreibt einen stochastischen Prozess ohne Gedächtnis. Dieser Prozess hat eine vorgegebene Anzahl von Zuständen. Der Prozess wechselt zufällig von dem aktuellen Zustand in einen Folgezustand. Dabei gilt die Markow-Annahme: Die Wahrscheinlichkeit für einen Zustandsübergang hängt nur von dem aktuellen Zustand und dem Folgezustand ab und nicht von früheren Zustandsübergängen. Der Markow-Entscheidungsprozess erweitert die Markow-Ketten um einen Agenten, der sich zwischen mehreren möglichen Aktionen entscheiden kann und positive oder negative Belohnungen als Rückmeldung erhält. ÜbersichtDas Modell eines Markow-Entscheidungsprozesses hat mehrere Zustände und mehrere Aktionen. Der Prozess befindet sich zum Zeitpunkt in einem bestimmten Zustand . Dann führt eine Aktion dazu, dass der Prozess mit der Wahrscheinlichkeit zum Zeitpunkt einen bestimmten Folgezustand erreicht. Dabei gilt die Markow-Annahme: Die Zustände haben kein Gedächtnis, d. h., die Wahrscheinlichkeit ist nur von den Zuständen und abhängig und nicht von Vorgängern von . Der Zustandsübergang kann zu einer positiven oder negativen Belohnung führen. Wenn alle Zustände, alle Aktionen und alle Übergangswahrscheinlichkeiten bekannt sind, kann die optimale Strategie für den Agenten mit dem Optimalitätsprinzip von Bellman berechnet werden. Eine Methode dazu ist die dynamische Programmierung, die auf Rückwärtsinduktion beruht. Darauf bauen beispielsweise Methoden auf, die beim bestärkenden Lernen dazu eingesetzt werden, eine Strategie zu erlernen, mit der ein Software-Agent seine Aktionen so wählt, dass er von seiner Umwelt möglichst viele Belohnungen erhält.[1]:743–747 Formale DefinitionEin MEP ist ein Tupel , wobei
Ein Agent wählt seine Aktionen mit Hilfe einer Strategie aus. Die Strategie ordnet jedem Zustand genau eine Aktion zu. Optimale StrategieDas Ziel ist, dass der Agent bei seinen Entscheidungen einer guten Strategie folgt: einer Funktion , die für jeden Zustand bestimmt, welche Aktion der Agent wählt. Wenn der Agent einer Strategie folgt, ist seine Aktion für jeden Zustand fest vorgegeben. Der Prozess verhält sich dann wie eine Markow-Kette. Gesucht wird eine optimale Strategie , die den Gewinn maximiert, den der Agent durch seine Aktionen erreicht. Das Optimalitätsprinzip von Bellman besagt, dass eine optimale Strategie in jedem Zustand die Aktion wählt, bei der zukünftig der größte Gewinn zu erwarten ist. Der zukünftig zu erwartende Gewinn wird auch kumulierter Reward genannt. Er wird in der Regel als Summe aller Belohnungen über unendlich viele Zustandsübergänge berechnet:
Dabei ist die Belohnung, die der Agent wahrscheinlich im Zeitschritt erhält. Der Diskontierungsfaktor sorgt dafür, dass die Summe für kontinuierliche Probleme (unendlich viele Zustandsübergänge) gegen einen Grenzwert konvergiert. Für zählt nur die direkte Belohnung einer Aktion, alle zukünftigen Belohnungen werden ignoriert.[2]:487–491 Typische Werte für liegen zwischen 0,95 und 0,99.[1]:738 BeispielBei einem deterministischen Markow-Entscheidungsproblem führt jede Aktion zu genau einem Folgezustand. Ein solches Problem liegt vor, wenn ein Roboter durch ein Labyrinth zu einem Ziel navigieren soll. Dabei entspricht die Menge der Zustände der Menge der möglichen Positionen des Roboters und die Aktionen sind Schritte des Roboters in verschiedene Richtungen. Die Belohnungen sind so gewählt, dass der Roboter für den letzten Schritt, mit der er das Ziel erreicht, eine große positive Belohnung erhält und er für alle anderen Schritte die gleiche kleine negative Belohnung erhält. Dadurch erhält der Roboter den höchsten kumulierten Reward, wenn er mit möglichst wenigen Schritten das Ziel erreicht. AlgorithmenDie folgenden Algorithmen sind Beispiele dafür, wie mit der dynamischen Programmierung ein komplexes Problem iterativ gelöst werden kann. Sie können auf MEPs angewendet werden, bei denen die Anzahl von Zuständen und Aktionen endlich ist und alle Transaktionswahrscheinlichkeiten und Belohnungen bekannt sind. Für solche MEPs können sie eine optimale Strategie finden oder überprüfen. Sie bilden deshalb die mathematische Grundlage für eine Reihe von Algorithmen, die beim bestärkenden Lernen zum Lösen von ähnlichen Problemen eingesetzt werden. Value-Iteration-AlgorithmusDas Optimalitätsprinzip von Bellman beschreibt den optimalen Wert des aktuellen Zustands als maximal zu erwartenden kumulierten Reward. Dieser Zustandswert entspricht der Summe aus der durchschnittlichen Belohnung, die im aktuellen Zustand mit der bestmöglichen Aktion erreicht wird und allen zukünftigen Belohnungen, die zu erwarten sind, wenn der Agent auch in allen Folgezuständen die jeweils bestmögliche Aktion ausführt. Daraus hat Bellman eine rekursive Formel für den Value-Iteration-Algorithmus abgeleitet, mit dem man den optimalen Zustandswert für jeden möglichen Zustand abschätzen kann:
Darin sind die Nummer des aktuellen Durchlaufs und der geschätzte Zustandswert für im Durchlauf . Der erste Durchlauf beginnt im Zustand , mit und allen Schätzwerten auf . In jedem Durchlauf werden die Schätzungen für alle Zustände basierend auf den Schätzungen des vorigen Durchlaufs neu berechnet. Mit genügend Wiederholungen konvergieren die Schätzungen zu den Zustandswerten, die mit einer optimalen Strategie erreicht werden können.[1]:745,746 Q-Wert-IterationsalgorithmusBellman fand auch eine Formel für einen ähnlichen Algorithmus, mit dem man die optimalen Zustands-Aktions-Werte, auch Q-Werte (Qualitätswerte) genannt, abschätzen kann:
Weblinks
Einzelnachweise
|
Portal di Ensiklopedia Dunia