Detección de primer planoLa detección de primer plano es una de las grandes tareas en el ámbito de la visión por computador que tiene como objetivo principal detectar cambios en secuencias de imágenes. Muchas aplicaciones no necesitan conocer toda la evolución del movimiento en una secuencia de video, sino que solo precisan de la información de los cambios en la escena. La detección de primer plano intenta separar estos cambios que se producen en el primer plano del fondo. Se trata de un conjunto de técnicas que, normalmente, analizan las secuencias de video en tiempo real y que son tomadas con una cámara estacionaria. DescripciónTodas las técnicas de detección de primero se basan en modelar primeramente el fondo de la imagen. Es decir, definir el fondo y luego ver qué cambios se producen en este. Definirlo puede ser una tarea muy difícil cuando contiene formas, sombras, y objetos que se mueven. A la hora de definirlo, se asume que consiste en objetos estacionarios que pueden tener variaciones de color e intensidad en función del tiempo. Los escenarios donde se aplican estas técnicas suelen ser muy diversos. Pueden ser secuencias muy variables, imágenes con una iluminación muy diferente, interiores, exteriores, más calidad o menos y así hasta un número muy elevado de posibilidades. Se necesita un sistema que, aparte de poder procesar en tiempo real, sea capaz de adaptarse a todas estas variaciones. Un muy buen sistema de detección de primer plano debe ser capaz de:
TécnicasLa detección de primer plano ha sido un problema muy estudiado desde hace tiempo en el campo de la visión por computador. Hay muchas técnicas que tratan este problema, todas basadas en la dualidad de fondo estacionario y dinámico a la vez. Filtro de mediana temporalEs un método que fue propuesto por El y Velastin. Este sistema estima el modelo de fondo a partir de la mediana de todos los píxeles de un cierto número de imágenes anteriores. El sistema utiliza una memoria intermedia con los valores de los píxeles de las últimas tramas para actualizar la mediana para cada imagen. Para modelar el fondo, el sistema estudia todas las imágenes de un periodo de tiempo determinado llamado tiempo de entrenamiento. En este tiempo solo se visualizarán imágenes del fondo y se calculará la mediana, píxel por píxel, de todas las tramas de fondo de este tiempo. Después del periodo de entrenamiento, para cada trama nueva, cada valor de píxel de entrada se compara con su valor de fondo calculado previamente. Si el píxel de entrada está dentro de un umbral establecido, se considera que el píxel coincide con el fondo modelo y su valor se incluye en la memoria intermedia de píxeles. En caso contrario, si el valor de píxel está fuera de este umbral, se clasifica como de primer plano, y no se incluirá en la memoria intermedia. No se puede considerar este método muy eficiente ya que no presenta una base estadística rigurosa y precisa de una memoria intermedia que tiene un coste computacionalmente elevado. Running Gaussian averageLa idea principal de este método es modelar el fondo de una manera más probabilística basada en la distribución gaussiana. Cada píxel cuenta con su distribución de probabilidad gaussiana caracterizada por una media y una varianza. Como para cada trama el fondo puede ir cambiando, la media y la varianza se tienen que ir actualizando. Para ello, siguen las siguientes ecuaciones: Donde es el valor del píxel de la imagen a analizar, y son respectivamente la media y la varianza de la distribución gaussiana, es el parámetro que define la velocidad de actualización (normalmente y es la distancia euclídea entre la media y el valor del píxel. Aparte de actualizar en cada píxel las distribuciones gaussianas, se clasificará el píxel a analizar: fondo o primer plano. Para ello, tenemos que comprobar si el píxel analizado pertenece a la gaussiana definida para el modelo de fondo de aquel valor de píxel. Lo hacemos siguiendo la ecuación:
donde el parámetro es un umbral a especificar (normalmente ). Cuando la desigualdad es satisfecha, el píxel es considerado de primer plano. En caso contrario, se considerará fondo. Una variante del método propone que la actualización de las variables solo debería hacerse cuando el píxel a analizar se considere como fondo, ya que si se considera como primer plano el modelo de fondo de aquel píxel no debería haber cambiado. Por tanto, esta variante del método especifica una actualización diferente para la variable . Actualiza según la ecuación:
Donde cuando es considerado de primer plano (foreground) y en el caso contrario. Así pues, cuando , es decir, cuando el píxel sea detectado como primer plano, la media no actualizará ya que el producto dará como resultado 0. Este método, además de estimar un modelo de fondo más parecido a la realidad, precisa de menos memoria que el anterior ya que solo tienen que ir variando la media y la varianza. Gaussian Mixture ModelEs el método propuesto por Stauffer and Grimson[1] y probablemente el más importante en cuanto a esta tarea. Aprovecha la idea de modelar el fondo con funciones gaussianas, pero en lugar de utilizar solo una por cada píxel y variarla, considera que cada píxel puede tener diferentes estados en función del tiempo. Por ejemplo, en un cielo de color azul podemos tener nubes blancas que van pasando variablemente. Los píxeles azules, aparte de ser azules y variar ese color, también pueden ser blancos en una imagen consecutiva. El método de múltiple gaussianas proporciona para cada píxel una serie de gaussianas que corresponden a los estados posibles. Para cada píxel:
El algoritmo a seguir tiene diferentes pasos: Distribución de cada píxel (K gaussianas)La distribución de cada píxel en una imagen viene definida por la expresión:
Donde es el número de guassianas utilizadas para modelar cada píxel (normalmente entre 3 y 5), es el peso de cada gaussiana y es la definició de la gaussiana con media () y matriz de covariancia (). Elección del modelo de fondo (B gaussianas)El fondo para un píxel se modelará con las B gaussianas con más peso y con menos varianza:
Donde és un umbral de decisión (normalmente 0.6) y el número mínimo de gaussianas para cada píxel.
Decisión fondo o primer planoUna vez tenemos todos los píxeles modelados podemos elegir si el píxel a analizar corresponde al fondo o no.
Es decir:
Solo si se cumple para TODAS las gaussianas.
Si no se cumple para ALGUNA gaussiana
Donde es el píxel a analizar, y la media y la variancia, respectivamente, de la gaussiana a comparar y un umbral a especificar (normalmente ). Si un píxel no pertenece a ninguna de las gaussianas del modelo se creará una nueva. Normalmente, un píxel así será considerado a primera vista primer plano, pero, si esta gaussiana nueva creada va aumentando su peso significa que se convertirá en una de las gaussianas del fondo y este se habrá convertido en un objeto estático. El número de gaussianas del fondo () siempre es constante. Si esta nueva gaussiana creada se convirtiera en fondo debido a un aumento de su peso, entonces otra gaussiana sería eliminada del modelo de fondo. Actualización del fondoFinalmente, tal como hemos visto en la técnica anterior, se hará una actualización del fondo cuando uno de los píxeles corresponda con una de las gaussianas del modelo probabilístico. Actualizaciones: EigenbackgroundsLa idea de este método es construir un fondo mediante los autovectores de este, es decir, crearemos una imagen de fondo modélica. Dado que una imagen contiene su información de una manera matricial, en este método se utilizan los autovectores y los autovalores que se van obteniendo. Un autovector (o vector propio) es aquel que no se ve afectado por las transformaciones lineales y que en cualquier caso no varía su dirección a pesar de ser multiplicado por un escalar. Asimismo, un autovalor (o valor propio) será aquel escalar por el que se multiplica el autovector asociado. Este entorno es conocido como un autoespacio. Se obtiene, imagen a imagen, aquella matriz donde se delimita un autoespacio. Cabe señalar que la mayor parte del peso de una imagen está contenida en pocos autovalores, de modo que los de menor peso serán desechables. Este método, al contrario que el métodos anteriores que se basan en datos estadísticos del píxel, se basa en datos estadísticos de la escala de grises sobre el tiempo.
Es una técnica más sencilla y rápida pero pierde precisión y es dificultoso trabajar con datos en tiempo real dado el alto coste computacional del algoritmo. Otras técnicasLa mayoría de métodos actuales utilizan las diferentes técnicas mencionadas anteriormente combinadas. Algunas técnicas de estas son: AplicacionesLa detección de primer plano tiene múltiples aplicaciones actualmente. SeguridadEn el ámbito de la seguridad, la detección de primer plano puede:
Para detectar la presencia de una persona no es necesario conocer la forma de esta ni la trayectoria. Con una variación de cambios en el espacio podemos detectar presencias inesperadas. TráficoMúltiples aplicaciones en el ámbito de la seguridad vial y el tráfico en general. La detección de primer plano puede:
Reconstrucción 3DPodemos reconstruir en 3D objetos a partir de diferentes puntos de vista de estos. Segmentando las imágenes de cada punto de vista y juntando todos estos planos podemos hacer una reconstrucción 3D del objeto deseado. Antes de eso, sin embargo, tendremos que detectar el primer plano de las imágenes que queremos reconstruir. Detección de actividadEstos últimos años se ha hecho mucha investigación en el ámbito de la detección de actividad humana. Hay múltiples aplicaciones relacionadas con este tópico, aunque la que más destaca es el reconocimiento de gestos ya que permite una interacción con máquinas y un enfoque a la vivienda inteligente. CodificaciónEn la compresión de datos y más concreto en este caso, la codificación de imagen y video es común tratar codificar con más bits aquellas regiones de una imagen que son más importantes para la visión humana. Esta parte de la imagen se llama 'región de interés' y muy a menudo corresponde con el primer plano de la imagen. Muchos codificadores de imagen están aplicando mucho la codificación basada en el contenido de la imagen. Uno de ellos es el JPEG 2000. Es una técnica muy utilizada también en el ámbito de la medicina ya que muchas veces interesa fijar toda la atención en una región de la imagen Referencias
Enlaces externos |