У навчанні з підкріпленням безмодельний алгоритм (на відміну від заснованого на моделі) — це алгоритм, який не використовує розподіл ймовірностей переходу і функцію винагороди,[1] що пов'язані з Марковським процесом вирішування (МПВ), відображаючим необхідну для розв'язання проблему. Розподіл ймовірностей переходу (або модель переходу) і функцію винагороди зазвичай загалом називають «моделлю» середовища (або МПВ), звідси й назва «безмодельний». Алгоритм безмодельного навчання з підкріпленням можна розглядати як «явний» алгоритм спроб і помилок.[1] Прикладом безмодельного алгоритму може слугувати Q-навчання.
Основні алгоритми безмодельного навчання з підкріпленням
Алгоритм
|
Опис
|
Модель
|
Стратегія
|
Множина дій
|
Простір станів
|
Оператор
|
DQN
|
Deep Q Network
|
Безмодельний
|
Поза стратегією
|
Дискретна
|
Безперервний
|
Q-значення
|
DDPG
|
Deep Deterministic Policy Gradient
|
Безмодельний
|
Поза стратегією
|
Безперервна
|
Безперервний
|
Q-значення
|
A3C
|
Asynchronous Advantage Actor-Critic Algorithm
|
Безмодельний
|
За стратегією
|
Безперервна
|
Безперервний
|
Перевага (англ. Advantage)
|
TRPO
|
Trust Region Policy Optimization
|
Безмодельний
|
За стратегією
|
Безперервна
|
Безперервний
|
Перевага (англ. Advantage)
|
PPO[en]
|
Proximal Policy Optimization
|
Безмодельний
|
За стратегією
|
Безперервна
|
Безперервний
|
Перевага (англ. Advantage)
|
TD3
|
Twin Delayed Deep Deterministic Policy Gradient
|
Безмодельний
|
Поза стратегією
|
Безперервна
|
Безперервний
|
Q-значення
|
SAC
|
Soft Actor-Critic
|
Безмодельний
|
Поза стратегією
|
Безперервна
|
Безперервний
|
Перевага (англ. Advantage)
|
Примітки
- ↑ а б Sutton, Richard S.; Barto, Andrew G. (13 листопада 2018). Reinforcement Learning: An Introduction (PDF) (вид. Second). A Bradford Book. с. 552. ISBN 0262039249. Архів оригіналу (PDF) за 19 лютого 2019. Процитовано 18 лютого 2019.