Processus de décision markovien

En théorie de la décision et en théorie des probabilités, un processus de décision markovien (en anglais Markov decision process, MDP) est un modèle stochastique où un agent prend des décisions et où les résultats de ses actions sont aléatoires. Les MDPs sont utilisés pour étudier des problèmes d'optimisation à l'aide d'algorithmes de programmation dynamique ou d'apprentissage par renforcement. Les MDPs sont connus depuis les années 1950[1]. Une grande contribution provient du travail de Ronald A. Howard avec son livre de 1960, Dynamic Programming and Markov Processes. Ils sont utilisés dans de nombreuses disciplines, notamment la robotique, l'automatisation, l'économie et l'industrie manufacturière.

Un processus de décision markovien est un processus de contrôle stochastique discret. À chaque étape, le processus est dans un certain état et l'agent choisit une action . La probabilité que le processus arrive à l'état est déterminée par l'action choisie. Plus précisément, elle est décrite par la fonction de transition d'états . Donc, l'état dépend de l'état actuel et de l'action sélectionnée par le décideur. Cependant, pour un et un , le prochain état est indépendant des actions et états précédents. On dit alors que le processus satisfait la propriété de Markov.

Quand le processus passe de l'état à l'état avec l'action , l'agent gagne une récompense .

Les MDPs sont une extension des chaînes de Markov. La différence est l'addition des actions choisies par l'agent et des récompenses gagnées par l'agent. S'il n'y a qu'une seule action à tirer dans chaque état et que les récompenses sont égales, le processus de décision markovien est une chaîne de Markov.

Définition intuitive

Afin de comprendre ce qu'est un MDP, supposons que l'on ait un système évoluant dans le temps comme un automate probabiliste. À chaque instant le système est dans un état donné et il existe une certaine probabilité pour que le système évolue vers tel ou tel autre état à l'instant suivant en effectuant une transition.

Supposons maintenant que l'on doive contrôler ce système boite noire de la meilleure façon possible. L'objectif est de l'amener dans un état considéré comme bénéfique, en évitant de lui faire traverser des états néfastes. Pour cela, on dispose d'un ensemble d'actions possibles sur le système. Pour compliquer la chose, on supposera que l'effet de ces actions sur le système est probabiliste : l'action entreprise peut avoir l'effet escompté ou un tout autre effet. L'efficacité du contrôle est mesurée relativement au gain ou à la pénalité reçue au long de l'expérience.

Ainsi, un raisonnement à base de MDP peut se ramener au discours suivant : étant dans tel cas et choisissant telle action, il y a tant de chance que je me retrouve dans tel nouveau cas avec tel gain.

Pour illustrer les MDP, on prend souvent des exemples issus de la robotique mobile (avec les positions pour états, les commandes comme actions, les mouvements comme transitions et l'accomplissement/échec de tâches comme gains/pénalités).

Hypothèse de Markov

Dans les MDP, l'évolution du système est supposée correspondre à un processus markovien. Autrement dit, le système suit une succession d'états distincts dans le temps et ceci en fonction de probabilités de transitions. L'hypothèse de Markov consiste à dire que les probabilités de transitions ne dépendent que des n états précédents. En général, on se place à l'ordre n = 1, ce qui permet de ne considérer que l'état courant et l'état suivant.

Définition formelle

Un MDP est un quadruplet définissant:

  • un ensemble d'états , qui peut être fini, dénombrable ou continu; cet ensemble définit l'environnement tel que perçu par l'agent (dans le cas d'un robot, on peut voir cela comme l'ensemble produit des valeurs de ses différents capteurs);
  • un ensemble d'actions , qui peut être fini, dénombrable ou continu et dans lequel l'agent choisit les interactions qu'il effectue avec l'environnement (dans le cas d'un robot on peut voir cela comme l'ensemble produit des paramètres de ses différentes commandes);
  • une fonction de transition ; cette fonction définit l'effet des actions de l'agent sur l'environnement: représente la probabilité de se retrouver dans l'état en effectuant l'action , sachant que l'on était à l'instant d'avant dans l'état .

ainsi définie représente le cas le plus général; dans un environnement déterministe, on aura plutôt .

  • une fonction de récompense ; elle définit la récompense (positive ou négative) reçue par l'agent: est la probabilité d'obtenir une récompense pour être passé de l'état à en ayant effectué l'action . Ici encore cette définition est très générale, bien souvent on se contentera par exemple des cas particuliers suivants :
    • (récompense déterministe, c'est le choix que nous adopterons dans la suite) ;
    • (récompense déterministe rattachée à l'action en ignorant son résultat) ;
    • (récompense déterministe rattachée à un état donné).

Dans la littérature, la fonction de récompense est parfois remplacée par une fonction de coût[réf. nécessaire].

NB: nous ne considérons ici que les modèles dans lesquels le temps est discrétisé, c'est-à-dire que la «trajectoire» de l'agent dans l'environnement est décrite par une suite d'états (), et non par une fonction avec . De même on notera la suite des actions prises par l'agent. On pourra consulter [2] pour une description des MDP à temps continu.

Exemple de MDP

Exemple de processus de Décision Markovien à trois états et à deux actions.

L'exemple donné ci-contre représente un processus de Décision Markovien à trois états distincts représentés en vert. Depuis chacun des états, on peut effectuer une action de l'ensemble . Les nœuds rouges représentent donc une décision possible (le choix d'une action dans un état donné). Les nombres indiqués sur les flèches sont les probabilités d'effectuer la transition à partir du nœud de décision. Enfin, les transitions peuvent générer des récompenses (dessinées ici en jaune).

  • La matrice de transition associée à l'action est la suivante :

  • La matrice de transition associée à l'action est la suivante :

En ce qui concerne les récompenses,

  • on perçoit une récompense de +5 lorsque l'on passe de l'état à l'état en accomplissant l'action
  • on perçoit une récompense de -1 (aussi appelée pénalité) lorsque l'on passe de l'état à l'état en accomplissant l'action

Remarques

Le modèle MDP présenté ici est supposé stable dans le temps, c'est-à-dire que les composants du quadruplet sont supposés invariants. Il n'est donc pas applicable en l'état pour un système qui évolue, par exemple pour modéliser un système qui apprend contre un autre agent.

Politiques, fonctions de valeurs et équations de Bellman

Politique

Une politique décrit les choix des actions à jouer par l'agent dans chaque état. Formellement, il s'agit donc d'une fonction dans le cas d'une politique déterministe ou dans le cas stochastique. On note parfois la probabilité de jouer a dans l'état s, i.e. , la probabilité de jouer a à l'instant t sachant que l'état à l'instant t est s. Cette valeur est indépendante de t : on parle de politique stationnaire. Etant donné un MDP et une politique, on obtient une chaîne de Markov avec récompense. Nous nous plaçons dans le cas déterministe.

Critère

L'agent choisit une politique à l'aide de la fonction de récompense . Notons la récompense effective obtenue après avoir effectué l'action par l'agent qui suit la politique . Voici plusieurs critères d'intérêts que l'agent peut chercher à maximiser :

  • : espérance de la somme des récompenses à un horizon fini fixé  ;
  • ou : récompense moyenne à long terme ;
  • : récompense escomptée (ou amortie) à horizon infini où .

Le dernier critère est courant et c'est celui que nous adoptons dans la suite. La valeur de permet de définir l'importance que l'on donne au futur. Quand nous sommes face à un agent «pessimiste» qui ne cherche qu'à optimiser son gain immédiat. À l'opposé si , l'agent est «optimiste» puisqu'il tient de plus en plus sérieusement compte du futur lointain (si , l'agent tient autant compte du futur lointain que du gain immédiat).

Fonctions de valeurs

Lorsqu'une politique et un critère sont déterminés, deux fonctions centrales peuvent être définies :

  • : c'est la fonction de valeur des états; représente le gain (selon le critère adopté) engrangé par l'agent s'il démarre à l'état et applique ensuite la politique ad infinitum.
  • : c'est la fonction de valeur des états-actions; représente le gain engrangé par l'agent s'il démarre à l'état et commence par effectuer l'action , avant d'appliquer ensuite la politique ad infinitum.

Équation de Bellman

Les deux fonctions sont intimement liées. On a toujours et, dans le cas du gain amorti à horizon infini, on peut également écrire que:

Cette dernière relation montre que la fonction vérifie une relation de récurrence appelée équation de Bellman:

L'équation de Bellman s'écrit comme l'équation linéaire suivante dans la chaîne de Markov avec récompenses "applatie" à partir du processus de décision markovien et la politique  :

est le vecteur contenant les valeurs pour chaque état, est la matrice des récompenses, est la matrice des probabilités.

Problèmes possibles

  • Planification : étant donné un MDP , trouver quelle est une politique qui maximise l'espérance de la récompense.
  • Améliorer une politique connue : étant donné une politique , trouver une meilleure politique.

Ce problème est notamment au cœur des algorithmes de recherche de la politique optimale.

Algorithmes

Une politique étant fixée, l'équation de Bellman peut se résoudre d'au moins deux manières, permettant donc de déterminer les valeurs de , et par suite, celles de également.

  • on peut déjà remarquer que, dans le cas où le nombre d'états est fini, l'équation de Bellman cache en fait un système linéaire de équations à inconnues.

On peut donc le résoudre, une fois traduit en une équation matricielle, par une technique telle que le pivot de Gauss.

  • on peut également remarquer qu'en posant

on définit un opérateur , appelé opérateur de Bellman, pour lequel est un point fixe. On peut montrer que est une contraction, ce qui garantit d'une part l'existence d'un unique point fixe, et d'autre part que la suite récurrence converge vers ce point fixe exponentiellement vite.

Équations d'optimalité de Bellman

Le but de l'agent est de trouver la politique optimale qui lui permet de maximiser son gain, c'est-à-dire celle qui vérifie, pour tout état , quelle que soit l'autre politique . On peut montrer que la fonction de valeurs optimale vérifie l'équation d'optimalité de Bellman:

De manière analogue, la fonction vérifie elle aussi une équation d'optimalité:

Résolution des équations d'optimalité de Bellman

Les équations d'optimalité de Bellman ne sont pas linéaires, il faut donc abandonner l'idée de les résoudre algébriquement. En revanche, l'opérateur de Bellman défini par

définit encore une contraction dont est un point fixe. La fonction de valeurs optimale peut donc à nouveau s'approcher par un processus itératif à convergence exponentielle.

Déterminer la politique optimale: algorithme d'Itération sur la valeur (VI)

La méthode itérative que nous venons de voir pour les équations d'optimalité de Bellman fournit un premier algorithme, appelé itération sur la valeur (VI: Value-Iteration) permettant de déterminer . Il suffit en effet de déterminer avec une précision donnée, et on peut en déduire la politique optimale par:

Une difficulté dans cet algorithme est de déterminer la précision avec laquelle calculer de manière à être sûr d'en déduire effectivement la politique optimale.

Déterminer la politique optimale: algorithme d'Itération sur la politique (PI)

policy-iteration
Description générale d'un algorithme d'itération de la politique

Un autre algorithme, appelé itération de la politique (PI: Policy-Iteration) essaye d'obtenir la politique optimale sans nécessairement calculer «jusqu'au bout» les valeurs de . L'idée est de partir d'une politique quelconque , puis d'alterner une phase d'évaluation, dans laquelle la fonction est déterminée (avec une des techniques vues plus haut), et une phase d'amélioration, où l'on définit la politique suivante par:

.

Cet algorithme prend fin lorsqu'aucune évolution de la politique n'est observée, ie, lorsque pour tout .

Si dans l'algorithme précédent l'on utilise une méthode itérative pour évaluer , alors se pose la question de savoir à quelle précision s'arrêter. Ce problème n'en est en réalité pas un, car on peut montrer que même si l'on tronque l'évaluation de , l'algorithme converge tout de même vers l'optimal. À l'extrême, c'est-à-dire lorsqu'une seule itération est utilisée pour évaluer , et après avoir réuni en une seule étape de calcul la phase d'amélioration et la phase d'évaluation, on retombe sur l'algorithme VI.

L'algorithme PI peut également se formuler dans les termes de la fonction d'états-actions plutôt que . On voit donc qu'un grand nombre de variantes peuvent être imaginées, mais tournant toutes autour d'un même principe général qui est schématisé à la figure ci-contre.

Articles connexes

Bibliographie

  • (Puterman 1994) M. L. Puterman, Markov Decision Processes. Discrete stochastic dynamic programming., Wiley-Interscience, New York 1994, 2005.
  • (Sutton et Barto 1998) R. S. Sutton et A.G. Barto Reinforcement Learning: An introduction, MIT Press, Cambridge, MA, 1998.

Références

  1. (en) Richard Bellman, « A Markovian Decision Process », Journal of Mathematics and Mechanics, vol. 6, no 5,‎ , p. 679–684 (ISSN 0095-9057, lire en ligne, consulté le ).
  2. (en) Xianping Guo, Onesimo Hernandez-Lerma, Continuous-Time Markov Decision Processes: Theory and Applications, Springer-Verlag Berlin Heidelberg, 2009, (ISBN 978-3-642-02546-4)

Read other articles:

Jean-Paul LaurensPotret diriLahir28 Maret 1838Fourquevaux, PrancisMeninggal23 Maret 1921(1921-03-23) (umur 82)Paris, PrancisDikenal atasPelukis Jean-Paul Laurens oleh Auguste Rodin 1881, Albertinum, Dresden Jean-Paul Laurens (pengucapan bahasa Prancis: [ʒɑ̃.pol loʁɑ̃]; 28 Maret 1838 – 23 Maret 1921) adalah seorang pelukis dan pematung Prancis, dan salah satu eksponen besar terakhir dari gaya Akademik Prancis. Biografi Laurens lahir di Fourquevaux dan merupakan mur…

Genus of fishes EpinephelusTemporal range: 55–0 Ma PreꞒ Ꞓ O S D C P T J K Pg N Eocene to present[1] Epinephelus fasciatus, the type species Epinephelus tukula Scientific classification Domain: Eukaryota Kingdom: Animalia Phylum: Chordata Class: Actinopterygii Order: Perciformes Family: Serranidae Subfamily: Epinephelinae Tribe: Epinephelini Genus: EpinephelusBloch, 1793 Type species Epinephelus marginalisBloch, 1793[2] Species see text Synonyms[3] Altiserranus …

MorondofrazioneMorondo – VedutaPanorama LocalizzazioneStato Italia Regione Piemonte Provincia Vercelli Comune Varallo TerritorioCoordinate45°49′50.77″N 8°17′10.21″E / 45.83077°N 8.28617°E45.83077; 8.28617 (Morondo)Coordinate: 45°49′50.77″N 8°17′10.21″E / 45.83077°N 8.28617°E45.83077; 8.28617 (Morondo) Abitanti105[2] (2001) Altre informazioniPrefisso0163 Fuso orarioUTC+1 CartografiaMorondo Modifica dati s…

Indian billiards player Geet SethiBorn17 April 1961 (1961-04-17) (age 63)Delhi, IndiaSport countryIndia Medal record Men's English billiards Representing  India Asian Games 1998 Bangkok Teams 1998 Bangkok Singles 2002 Busan Teams 2002 Busan Singles 2006 Doha Teams Geet Siriram Sethi (born 17 April 1961)[1] of India is a professional player of English billiards who dominated the sport throughout much of the 1990s. He is also a notable amateur (ex-pro) snooker player. He is …

Women's rhythmic group all-aroundat the Games of the XXIX OlympiadMedalists Margarita Aliychuk Anna Gavrilenko Tatiana Gorbunova Elena Posevina Daria Shkurikhina Natalia Zueva  Russia Cai Tongtong Chou Tao Lü Yuanyang Sui Jianshuang Sun Dan Zhang Shuo  China Olesya Babushkina Anastasia Ivankova Zinaida Lunina Glafira Martinovich Ksenia Sankovich Alina Tumilovich  Belarus← 20042012 →Gymnastics at the2008 Summer OlympicsList of gymnastsQualificationArtisticQua…

Upcoming elections for Northern Ireland Next Northern Ireland Assembly election ← 2022 No later than 6 May 2027 ← outgoing membersAll 90 seats to the Northern Ireland Assembly   Leader Michelle O'Neill[n 1] Gavin Robinson[n 2] Naomi Long Party Sinn Féin DUP Alliance Leader since 23 January 2017[n 3] 29 March 2024 26 October 2016 Leader's seat Mid Ulster MP (not an MLA)[n 4] Belfast East Last election 27 seats, 29.0% 25 se…

Северный морской котик Самец Научная классификация Домен:ЭукариотыЦарство:ЖивотныеПодцарство:ЭуметазоиБез ранга:Двусторонне-симметричныеБез ранга:ВторичноротыеТип:ХордовыеПодтип:ПозвоночныеИнфратип:ЧелюстноротыеНадкласс:ЧетвероногиеКлада:АмниотыКлада:Синапсиды…

Bagian dari seri tentangBuddhisme SejarahPenyebaran Sejarah Garis waktu Sidang Buddhis Jalur Sutra Benua Asia Tenggara Asia Timur Asia Tengah Timur Tengah Dunia Barat Australia Oseania Amerika Eropa Afrika Populasi signifikan Tiongkok Thailand Jepang Myanmar Sri Lanka Vietnam Kamboja Korea Taiwan India Malaysia Laos Indonesia Amerika Serikat Singapura AliranTradisi Buddhisme prasektarian Aliran Buddhis awal Mahāsāṃghika Sthaviravāda Aliran arus utama Theravāda Mahāyāna Vajrayāna Konsens…

此条目序言章节没有充分总结全文内容要点。 (2019年3月21日)请考虑扩充序言,清晰概述条目所有重點。请在条目的讨论页讨论此问题。 哈萨克斯坦總統哈薩克總統旗現任Қасым-Жомарт Кемелұлы Тоқаев卡瑟姆若马尔特·托卡耶夫自2019年3月20日在任任期7年首任努尔苏丹·纳扎尔巴耶夫设立1990年4月24日(哈薩克蘇維埃社會主義共和國總統) 哈萨克斯坦 哈萨克斯坦政府與…

This article needs additional citations for verification. Please help improve this article by adding citations to reliable sources. Unsourced material may be challenged and removed.Find sources: 2016 World RX of Argentina – news · newspapers · books · scholar · JSTOR (November 2016) (Learn how and when to remove this message) World RX layout of Autódromo Municipal Juan Manuel Fangio 2016 World RX of ArgentinaRound 12 of 12 in the2016 FIA World Rallycross…

For other uses, see Calbuco (disambiguation). City and Commune in Los Lagos, ChileCalbucoCity and CommuneSan Miguel Arcangel de Calbuco Flag Coat of arms Location of the commune of Calbuco in Los Lagos Region CalbucoLocation in ChileCoordinates: 41°46′S 73°08′W / 41.767°S 73.133°W / -41.767; -73.133CountryChileRegionLos LagosProvinceLlanquihueFounded asFuerte San Miguel de CalbucoFoundedMay, 1603Government[1] • TypeMunicipality • Al…

Election in Wyoming Main article: 1992 United States presidential election 1992 United States presidential election in Wyoming ← 1988 November 3, 1992 1996 →   Nominee George H. W. Bush Bill Clinton Ross Perot Party Republican Democratic Independent Home state Texas Arkansas Texas Running mate Dan Quayle Al Gore James Stockdale Electoral vote 3 0 0 Popular vote 79,347 68,160 51,263 Percentage 39.70% 34.10% 25.65% County Results Bush   30…

U21 netball tournament Netball World Youth CupMost recent season or competition:2017 Netball World Youth CupSportNetballFounded1988; 36 years ago (1988)First season1988; 36 years ago (1988) AustraliaAdministratorInternational Netball FederationNo. of teams20 Teams (2017)ContinentInternational (INF)Most recentchampion(s) New Zealand(4th title)Most titles New Zealand Australia (4 titles each) Previously known as the World Youth Netball Championships, the Ne…

Fictional desert The topic of this article may not meet Wikipedia's general notability guideline. Please help to demonstrate the notability of the topic by citing reliable secondary sources that are independent of the topic and provide significant coverage of it beyond a mere trivial mention. If notability cannot be shown, the article is likely to be merged, redirected, or deleted.Find sources: Deadly Desert – news · newspapers · books · scholar · JSTOR (…

Syrian desert fortificaton Jabal Saisجبل سايسLocation within SyriaGeneral informationTown or cityRif DimashqCountrySyriaCoordinates33°18′11″N 37°21′34″E / 33.303116°N 37.359575°E / 33.303116; 37.359575Technical detailsMaterialadobe Jabal Sais (Arabic: جبل سايس also known as Qasr Says is a Umayyad desert fortification or former palace in Syria which was built 707-715 AD. The fortification sits near an extinct volcano.[1] Jabal Says is moun…

Artikel ini bukan mengenai Stasiun Cigombong, Stasiun Gembong, atau Stasiun Gembongan. Untuk kegunaan lain, lihat GB. Stasiun Gombong JS10 Emplasemen Timur Stasiun Gombong, 2023LokasiJalan Stasiun GombongWonokriyo, Gombong, Kebumen, Jawa Tengah 54412IndonesiaKoordinat7°36′39.316″S 109°30′27.965″E / 7.61092111°S 109.50776806°E / -7.61092111; 109.50776806Koordinat: 7°36′39.316″S 109°30′27.965″E / 7.61092111°S 109.50776806°E / …

Pemerintah daerah Arlington County, Virginia mendorong pembangunan berorientasi transit dalam ¼ hingga ½ mil (400 hingga 800 m) dari stasiun angkutan cepat Washington Metro, dengan pengembangan mixed-use, penyewaan sepeda, dan peningkatan kenyamanan pejalan kaki. Union Square, sebuah pengembangan berorientasi transit yang berpusat pada Kowloon Station, Hong Kong Dalam perencanaan perkotaan, pembangunan berorientasi transit (bahasa Inggris: transit-oriented development, disingkat TOD) adala…

artikel ini perlu dirapikan agar memenuhi standar Wikipedia. Tidak ada alasan yang diberikan. Silakan kembangkan artikel ini semampu Anda. Merapikan artikel dapat dilakukan dengan wikifikasi atau membagi artikel ke paragraf-paragraf. Jika sudah dirapikan, silakan hapus templat ini. (Pelajari cara dan kapan saatnya untuk menghapus pesan templat ini) Halaman ini berisi artikel tentang perguruan tinggi di Swiss. Untuk perguruan tinggi di Prancis, lihat École Polytechnique. Institut Teknologi Konfe…

معهد ستانفورد للأبحاثStanford Research Institute (بالإنجليزية)SRI International (بالإنجليزية) الشعارمدخل المقر الرئيسي للمعهد في مينلو باركمعلومات عامةالبلد  الولايات المتحدة[2] التأسيس 1946 النوع منظمة 501(c) منظمة غير ربحية، معهد أبحاث علميةالمقر الرئيسي مينلو بارك على الخريطة موقع الويب …

2000 video game This article is about the first video game of a series. For an overview of the series as a whole, see Deus Ex. For other uses, see Deus ex machina (disambiguation). 2000 video gameDeus ExDeveloper(s)Ion Storm[a]Publisher(s)Eidos Interactive[b]Director(s)Warren SpectorProducer(s)Warren SpectorDesigner(s)Harvey SmithProgrammer(s)Chris NordenArtist(s)Jay LeeNghia LamMike WashburnWriter(s)Sheldon PacottiChris ToddAustin GrossmanComposer(s)Alexander BrandonDan Gardopé…