Барто, Эндрю
Эндрю Герет Барто (род. 1948[1]) — американский учёный-информатик, почётный профессор информатики Массачусетского университета в Амхерсте[англ.]. Барто наиболее известен своим основополагающим вкладом в области современного вычислительного обучения с подкреплением[4]. В 2025 году вместе с Ричардом Саттоном был удостоен премии Тьюринга. БиографияЭндрю Барто родился в 1948 или 1949 году[5]. В 1970 году получил степень бакалавра с отличием по математике в Мичиганском университете, где первоначально специализировался на военно-морской архитектуре и инженерном деле. После прочтения работ Майкла Арбиба, Уоррена Стерджиса Маккаллоха и Уолтера Питтса заинтересовался использованием компьютеров и математики для моделирования работы мозга и через пять лет получил докторскую степень по информатике за диссертацию о клеточных автоматах[6]. В 1977 году Барто поступил на работу в Колледж информационных и компьютерных наук Массачусетского университета в Амхерсте в качестве постдокторского научного сотрудника, в 1982 году был повышен до доцента, а в 1991 году — до полного профессора. С 2007 по 2011 год был заведующим кафедрой и одним из основных преподавателей программы «Нейронаука и поведение»[7]. Во время работы в университете Барто был одним из руководителей Лаборатории автономного обучения, которая породила несколько ключевых идей в области обучения с подкреплением[7]. Ричард Саттон, с которым он стал соавтором влиятельной книги Reinforcement Learning: An Introduction[7], был его аспирантом. Обучение с подкреплениемКогда Барто начал работать в Массачусетском университете, он присоединился к группе исследователей, пытавшихся изучить поведение нейронов в человеческом мозге как основу человеческого интеллекта — концепцию, выдвинутую информатиком А. Гарри Клопфом. Вместе с Барто его докторант Саттон использовал математику для развития этой концепции и использования её в качестве основы для создания искусственного интеллекта. Эта концепция стала известна как обучение с подкреплением и стала ключевой частью методов создания искусственного интеллекта[8]. Барто и Саттон использовали марковские процессы принятия решений в качестве математической основы для объяснения того, как агенты (алгоритмические сущности) принимают решения, находясь в стохастической или случайной среде, получая вознаграждение по окончании каждого действия. Традиционная теория MDP предполагала, что агенты знают всю информацию о MDP, пытаясь максимизировать свое кумулятивное вознаграждение. Методы обучения с подкреплением Барто и Саттона допускали, что и среда, и вознаграждение неизвестны, что позволило применять алгоритмы этой категории для решения широкого круга задач[9]. Барто создал лабораторию для развития идей обучения с подкреплением, а Саттон вернулся в Канаду. Тема обучения с подкреплением продолжала развиваться в академических кругах, пока в одном из первых крупных реальных применений программа AlphaGo компании Google, построенная на этой концепции, не победила доминировавшего в то время чемпиона-человека[8]. Барто и Саттон широко известны как пионеры современного обучения с подкреплением, а сама техника стала основой для современного бума ИИ[10]. Барто опубликовал более ста статей или глав в журналах, книгах, материалах конференций и семинаров. В соавторстве с Ричардом Саттоном он написал книгу Reinforcement Learning: An Introduction, и книгу Handbook of Learning and Approximate Dynamic Programming[11]. НаградыБарто является членом Американской ассоциации содействия развитию науки[12], а также членом Американской ассоциации искусственного интеллекта и Общества нейронаук[13]. Барто был удостоен премии UMass Neurosciences Lifetime Achievement Award в 2019 году, премии IEEE Neural Network Society Pioneer Award в 2004 году[14]. В 2025 году получил премию Тьюринга от Ассоциации вычислительной техники вместе со своим бывшим докторантом Ричардом С. Саттоном за их работу по обучению с подкреплением; формулировка на вручении премии гласила: «За разработку концептуальных и алгоритмических основ обучения с подкреплением»[8][15][8]. Примечания
|
Portal di Ensiklopedia Dunia