Détection d'objetEn vision par ordinateur on désigne par détection d'objet (ou classification d'objet) une méthode permettant de détecter la présence d'une instance (reconnaissance d'objet) ou d'une classe d'objets dans une image numérique. Une attention particulière est portée à la détection de visage et la détection de personne. Ces méthodes font souvent appel à l'apprentissage supervisé et ont des applications dans de multiples domaines, tels la recherche d'image par le contenu ou la vidéo surveillance. ProblématiqueSelon la terminologie usuelle[1] on peut distinguer la détection, de la localisation et de la reconnaissance d'objets :
Pour des entités visuelles localisées (objet, visage, personne...), la détection et la localisation se confondent souvent. C'est différent pour des entités plus « abstraites » telles qu'intérieur/extérieur, jour/nuit, campagne/ville, etc. qui concernent plutôt la reconnaissance de scènes visuelles. Dans ce dernier cas, la localisation n'a pas toujours de sens puisque le concept est présent dans toute l'image. La détection d'une classe d'objets est généralement considérée comme un problème plus difficile que la reconnaissance d'une instance particulière, puisqu'il faut identifier les caractéristiques communes à la classe en faisant abstraction de la variété des différentes instances au sein de ladite classe[2]. Cette variété peut être due à de multiples facteurs, notamment les conditions d'illumination ou le point de vue sous lequel a été prise la photo. Elle accroît encore dans le cas d'objets articulés (i.e non rigides) tels que les piétons ou les animaux. Approche généraleL'approche générale pour détecter un objet dans une image (sans connaissance a priori sur les conditions de prise de vue) consiste en trois étapes :
Méthodes spécifiquesDes méthodes spécifiques ont été développées pour certains types d'objets, par exemple pour la détection de visage ou la détection de personne. Ces méthodes peuvent prendre en compte des caractéristiques spécifiques de l'objet comme le rapport largeur/hauteur, la présence des yeux et de la bouche dans le cas des visages, etc. Mise en correspondanceLa mise en correspondance vise à recaler les images (Exemple: SIFT) Recherche à grande échelleQuand les bases d'images sont grandes, les techniques de mise en correspondance deviennent inopérantes car trop gourmandes en calcul. La méthode bag-of-visterms consiste alors à agréger les détecteurs locaux selon un vocabulaire prédéfini, le dictionnaire. Inspiré de la technique connue depuis longtemps dans le domaine du texte (bag-of-words), elle a été proposée en 2003 pour la vidéo[3]. Voir aussi
Notes et références
|