Paul ChristianoPaul Christiano
Paul Christiano est un chercheur américain en intelligence artificielle (IA), spécialisé en alignement des intelligences artificielles (un sous-domaine de la recherche sûreté de l'IA visant à orienter les systèmes d'IA vers les intérêts humains)[1]. Il dirigeait auparavant l'équipe d'alignement des modèles de langage d'OpenAI[2]. Il est depuis 2021 le dirigeant fondateur du Alignment Research Center, un organisme à but non lucratif qui travaille sur l'alignement théorique de l'IA et l'évaluation des modèles d'apprentissage automatique[2],[3]. BiographieÉtudesEn 2012, Christiano est diplômé du MIT avec un diplôme en mathématiques[4]. Au MIT, il a étudié les structures de données, la cryptographie quantique et l'optimisation combinatoire[5]. CarrièreÀ OpenAI, Christiano a coécrit l'article « Deep Reinforcement Learning from Human Preferences » (L'apprentissage par renforcement profond à partir de préférences humaines, 2017) et d'autres travaux développant l'apprentissage par renforcement à partir de rétroaction humaine (Reinforcement learning from human feedback, RLHF en anglais)[6],[7]. Cette technique, utilisée pour l'entraînement de ChatGPT et d'autres modèles de langage, permet d'apprendre à partir des préférences humaines subjectives, plutôt que de fonctions d'objectif qui peuvent être de mauvais indicateurs des intérêts humains[8],[9]. D'autres travaux tels que « AI safety via debate » (La sûreté de l'IA par le débat, 2018) se concentrent sur le problème de la surveillance évolutive - superviser les IAs dans des domaines où les humains auraient du mal à juger de la qualité des contenus générés[10],[11],[12]. Christiano a quitté OpenAI en 2021 pour travailler sur des questions plus conceptuelles et théoriques dans l'alignement de l'IA, et a ensuite fondé le Alignment Research Center pour se concentrer sur ce domaine[1]. Il étudie notamment comment faire pour que les modèles avancés d'IA répondent au mieux de leurs connaissances, même lorsque les humains sont incapables d'en juger (« Eliciting Latent Knowledge », ELK)[13],[14]. Christiano est connu pour ses opinions sur les risques potentiels liés à l'IA. Dans une interview de 2023, il estime personellement être de 10 à 20% la probabilité pour que l'IA prenne le contrôle du monde en éliminant beaucoup ou la plupart des humains[1]. Il a également estimé subjectivement à 46% la probabilité pour que le futur de l'humanité soit irréversiblement ruiné (cf. risque existentiel) moins de 10 ans après la création d'IAs puissantes[15]. Notes et références
Liens externes
|
Portal di Ensiklopedia Dunia