L'ensemble de données CIFAR-10 est une collection d'images couramment utilisées pour former des algorithmes d'apprentissage automatique et de vision par ordinateur. C'est l'un des jeu de données ((en)dataset) les plus largement utilisés pour la recherche en apprentissage automatique[1],[2]. Il a été créé par l'Institut canadien de recherches avancées (acronyme: CIFAR), et contient 60 000 images de 10 classes d'objets différents (avions, voitures, oiseaux, chats, cerfs, chiens, grenouilles, chevaux, navires et camions). La répartition entre chaque classes est égale (6 000 images pour chaque classe). Les images sont en couleurs, mais en basse résolution (32x32 pixels)[3],[4].
Les algorithmes informatiques permettant de reconnaître des objets sur des photos apprennent souvent par l'exemple. Ce dataset sert donc souvent à apprendre à un ordinateur à reconnaître des objets. Étant donné que les images du CIFAR-10 sont en basse résolution (32 x 32), cet ensemble de données peut permettre aux chercheurs d’essayer rapidement différents algorithmes en phase d'expérimentation de leurs modèles de réseaux de neurones.
CIFAR-10, publié en 2009, est un sous-ensemble de données étiquetés ((en) labeled data) lui-même issue de l'ensemble de données 80 Million Tiny Images(en) de 2008. Lorsque l’ensemble de données a été créé, les étudiants ont été payés pour étiqueter toutes les images[5].
Différents types de réseaux de neurones convolutifs ont tendance à être les meilleurs pour reconnaître les images du CIFAR-10.
Articles de recherche ayant utilisé CIFAR-10
Il s'agit d'un tableau de certains des articles de recherche qui ont utilisé CIFARD-10 et ont revendiqués des résultats innovent pour la vision par ordinateur (et par extension, l'intelligence artificiel). Tous les articles ne sont pas standardisés sur les mêmes techniques de prétraitement, comme le retournement ou le décalage d'image. Pour ces raisons, il est possible que le taux d'erreur déclaré d'un article ne soit pas comparable a un autre.
Sondage sur la recherche de l'architecture neuronale
1,33
4 mai 2019
GPipe: Efficient Training of Giant Neural Networks using Pipeline Parallelism[20]
GPipe: Entraînement efficace de réseaux neuronaux géants utilisant les calculs paralléles
1,00
16 novembre 2018
Reduction of Class Activation Uncertainty with Background Information[21]
Réduction de l'incertitude d'activation de classe avec des informations de base
0,95
5 mai 2023
An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale[22]
Une image vaut 16x16 Mots: Transformateurs pour la reconnaissance d'images à l'échelle
0,5
2021
Benchmarks
CIFAR-10 est également utilisé comme référence de performance pour les équipes en compétition pour exécuter des réseaux neuronaux plus rapidement et à moindre coût. DAWNBench dispose de données de référence sur son site Web.
↑Tom Hope, Yehezkel S. Resheff et Itay Lieder, Learning TensorFlow: A Guide to Building Deep Learning Systems, O'Reilly Media, Inc., , 64– (ISBN9781491978481, lire en ligne)
↑Plamen Angelov, Alexander Gegov, Chrisina Jayne et Qiang Shen, Advances in Computational Intelligence Systems: Contributions Presented at the 16th UK Workshop on Computational Intelligence, September 7–9, 2016, Lancaster, UK, Springer International Publishing, , 441– (ISBN9783319465623, lire en ligne)
↑(en) Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, Jakob Uszkoreit et Neil Houlsby, « An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale », International Conference on Learning Representations, (arXiv2010.11929, lire en ligne)
Liens externes
Page CIFAR-10 – Site hébergent cet ensemble de données
CIFAR-100 : Similaire au CIFAR-10 mais avec 100 classes et 600 images chacune.
ImageNet (ILSVRC) : 1 million d'images couleur de 1000 classes. Les images Imagenet ont une résolution plus élevée, avec une résolution moyenne de 469 x 387.
Numéros de maison Street View (SVHN) : environ 600 000 images de 10 classes (chiffres de 0 à 9). Également des images couleur 32x32.