Hugging FaceHugging Face
Hugging Face est une entreprise (licorne) franco-américaine du domaine de l'Intelligence artificielle créée en 2016 et qui développe des outils pour utiliser l'apprentissage automatique. Elle propose notamment une bibliothèque, open source, de transformeurs conçue pour les applications de traitement automatique des langues, et une plate-forme permettant le partage des modèles et des ensembles de données nécessaires à l'apprentissage automatique, permettant notamment l'entraînement de nouveaux modèles, y compris de grands modèles. Hugging Face, en 2023, emploie 80 salariés en France[1]. En 2024, la plateforme collaborative Hub de l'entreprise stocke 1,3 million de modèles d'intelligence artificielle, 450 000 jeux de données, 680 000 espaces, avec environ 1 milliard de requêtes par jour. HistoireLa société a été fondée en 2016 par les entrepreneurs français Clément Delangue, Julien Chaumond et Thomas Wolf[2], initialement pour développer une application de chatbot destinée aux adolescents[3]. Après avoir ouvert le modèle de cette application, l'entreprise développe une plate-forme d'apprentissage automatique. En 2017, Hugging Face déménage aux États-Unis pour espérer lever des fonds[2]. Le , la société annonce mettre à disposition une version entreprise de son Hugging Face Hub public qui prend en charge le déploiement SaaS ou sur site[4]. En , la société présente un partenariat avec Amazon Web Services (AWS) qui rend ses produits disponibles aux clients AWS. La société indique également que la prochaine génération de BLOOM sera exécutée sur Trainium, une puce d'apprentissage automatique créée par Amazon[5],[6]. En 2024, l'entreprise a acheté XetHub (une start-up américaine, crée en 2021 à Seattle par des anciens de l'équipe de machine learning d'Apple, dédiée à la gestion de fichiers de projets d'intelligence artificielle, dont fichiers fragmentés et de déduplication (permettant d'importants gains de place et de vitesse), et qui a dopé le logiciel Git pour gérer des référentiels géants de données), pour améliorer ses capacités de stockage et de gestion des données, afin de répondre aux besoins croissants d'intelligence artificielle de plus en plus complexes[7]. Hugging Face pourrait ainsi remplacer Git LFS par une version optimisée de son propre système de stockage et de gestion de versions, intégrant les avancées technologiques de XetHub : la bande passante serait ainsi réduite, de même que le temps de téléchargement et de mise à jour de très gros fichiers (ex. : « dans un scénario où un fichier Parquet de 10 Go nécessite une mise à jour d'une seule ligne, les utilisateurs ne devront plus télécharger l'intégralité du fichier, mais seulement les fragments modifiés »[7]. FinancementEn , Hugging Face lève 40 millions de dollars lors d'un financement de série B.[8] Le 5 mai 2022, la société annonce un financement de série C [9] qui la valorise à deux milliards de dollars[10]. En août 2023, elle lève 235 millions de dollars auprès de plusieurs grandes multinationales américaines, incluant Google, Amazon et Nvidia, ce qui amène sa valorisation à 4,5 milliards de dollars[11]. La start-up a réalisé un chiffre d'affaires de 15 millions de dollars en 2022, et prévoit de dépasser 100 millions en 2024 en profitant de l'essor du secteur[10]. ProduitsHugging Face HubLa plateforme Hugging Face Hub permet aux utilisateurs d'y héberger[12] :
La société se veut ouverte et agnostique, à contre-courant des modèles économiques des GAFAM ou d'OpenAI. Le grand public peut accéder à ses services gratuitement, mais Hugging Face fait payer les entreprises lorsqu'elles ont besoin d'importante puissance de calcul[2],[1]. La société s'est dotée d'une équipe consacrée aux questions d'éthique et de droit qui résultent du déploiement des systèmes d'intelligence artificielle[14]. En février 2024, une étude de JFrog[15] affirme que la plateforme héberge au moins une centaine de modèles de machine learning malveillants. En effet ceux-ci abriteraient des portes dérobées qui permettraient ensuite de prendre le contrôle à distance des appareils concernés[16]. Bibliothèque de transformateursLa bibliothèque Transformers est un package Python qui contient des implémentations open source de modèles de transformateurs pour les tâches de texte, d'image et audio. Il est compatible avec les bibliothèques d'apprentissage profond PyTorch, TensorFlow et JAX et inclut des implémentations de modèles notables tels que BERT et GPT-2[source secondaire souhaitée]. BLOOMLa société lance en 2021 le BigScience Research Workshop en collaboration avec plusieurs autres groupes de recherche pour publier un grand modèle de langage ouvert[17]. 1 000 chercheurs européens ont participé[10], notamment du CNRS, du GENCI et du ministère de l'Enseignement supérieur et de la Recherche[18]. La collaboration donne naissance l'année suivante à BLOOM (BigScience Large Open-science Open-access Multilingual Language Model), un grand modèle de langage multilingue (comprenant 46 langues et 13 langages de programmation) disposant de 176 milliards de paramètres[19]. Les chercheurs ont privilégié l’entraînement sur un corpus de 1,4 téraoctet de texte composé de données fiables dans chaque langue. L'apprentissage a été effectué avec 8 pétaflops du supercalculateur Jean Zay de l'Institut du développement et des ressources en informatique scientifique. Durant 11 semaines, des centaines de processeurs graphiques ont fonctionné en parallèle, totalisant 5 millions d’heures de calcul. Le modèle a la particularité d'être mis à disposition publiquement (open-source), mais la licence interdit certaines utilisations comme l'écriture de fake news ou de conseils de santé. L'entreprise travaille à réduire les ressources nécessaires par l'utilisation du modèle pour le rendre plus accessible[20]. Critiques, problèmesSécurité des jetons d'APIDes chercheurs en sécurité ont découvert plus de 1 500 jetons d'API exposés sur la plateforme Hugging Face, appartenant à des géants de la technologie comme Meta, Microsoft, Google et VMware, ce qui a mis en danger de nombreuses organisations (cf. risques de vol de données, mais aussi d'empoisonnement de modèles d'intelligence artificielle)[21]. Modèles d'intelligence artificielle malveillantsLa plateforme héberge ou a hébergé de nombreux modèles d'intelligence artificielle malveillants, malgré les mesures de sécurité mises en place pour empêcher leur diffusion[22]. Liens externes
Références
|