Обучение с подкреплением на основе отзывов (reinforcement learning from human feedback, RLHF; также обучение с подкреплением на основе человеческих предпочтений) — метод, который обучает «модель вознаграждения» непосредственно на основе отзывов человека и использует её в качестве функции вознаграждения для оптимизации политики агента с использованием обучения с подкреплением (RL)[1][2]. RLHF может улучшить надёжность и исследование агентов RL, особенно когда функция вознаграждения разрежена или зашумлена[3][4][5].
Человеческая обратная связь собирается путём просьбы к людям ранжировать случаи поведения агента[6][7][8]. Затем эти рейтинги можно использовать для оценки результатов, например, с помощью рейтинговой системы Эло[2].
RLHF применялся к различным областям обработки естественного языка, таким как диалоговые агенты, автоматическое реферирование и понимание естественного языка[9][10]. Регулярное обучение с подкреплением, когда агенты учатся на своих собственных действиях на основе функции вознаграждения, трудно применить к задачам обработки естественного языка, потому что вознаграждение часто нелегко определить или измерить, особенно при решении сложных задач, связанных с человеческими ценностями или предпочтениями. RLHF может позволить языковым моделям давать ответы, соответствующие этим сложным значениям, генерировать более подробные ответы и отклонять вопросы, которые либо неуместны, либо выходят за рамки области знаний модели[11]. Некоторыми примерами языковых моделей, обученных с помощью RLHF, являются ChatGPT от OpenAI и его предшественник InstructGPT[7][12][13][14], а также Sparrow от DeepMind[15][16][17].
RLHF также применялся в других областях, таких как разработка ботов для видеоигр. Например, OpenAI и DeepMind обучили агентов играть в игры Atari на основе человеческих предпочтений[18][19]. Агенты продемонстрировали высокую производительность во многих протестированных средах, часто превосходя возможности человека[20].
Проблемы и ограничения
Одной из основных проблем RLHF является масштабируемость и стоимость обратной связи с человеком, которая может быть медленной и дорогой по сравнению с неконтролируемым обучением. Качество и согласованность обратной связи с людьми также могут варьироваться в зависимости от задачи, интерфейса и индивидуальных предпочтений людей. Даже когда человеческая обратная связь возможна, модели RLHF могут по-прежнему демонстрировать нежелательное поведение, которое не фиксируется человеческой обратной связью, или использовать лазейки в модели вознаграждения, что выявляет проблемы согласования и надёжности[21].
Примечания
↑Ziegler, Daniel M. (2019). "Fine-Tuning Language Models from Human Preferences". arxiv.org (англ.). doi:10.48550/arXiv.1909.08593.
↑Warnell, Garrett (2018-04-25). "Deep TAMER: Interactive Agent Shaping in High-Dimensional State Spaces". Proceedings of the AAAI Conference on Artificial Intelligence (англ.). 32 (1). doi:10.1609/aaai.v32i1.11485.
↑Bai, Yuntao (2022). "Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback". arxiv.org (англ.). doi:10.48550/arXiv.2204.05862.