Extração de características

Em aprendizagem de máquina, reconhecimento de padrões e em processamento de imagens, a extração de características é uma forma especial de redução dimensional.

Quando dados de entrada para um algoritmo são muito grandes para serem processados e são notadamente redundantes (muitos dados porém pouca informação) esses deverão ser transformados em um conjunto reduzido de características melhor representativo (também chamado vetor). Transformar os dados de entrada em um conjunto de características é chamado de Extração de características. Se as características extraídas forem cuidadosamente escolhidas se espera que esse conjunto represente a parte relevante da informação para se executar a tarefa desejada ao invés de se usar os dados de entrada na integra.

Geral

Extração de características envolve simplificar o conjunto de dados requeridos para descrever um grande conjunto com mais precisão. Quando executando a analise dados complexos um dos maiores problemas provêm do numero de valores envolvidos. Analisar uma gama muito grande de variações numéricas requer grande quantidade de memória e poder de processamento ou um algoritmo de classificação estatística que sobrecarrega a amostra de treinamento e faz pouca generalização para novas amostras (gerando muitas classes, ou classes desnecessárias). Extração de características é um termo genérico para métodos para construção de combinações de valores para contornar esses problemas e continuar representando os dados com certa precisão.[1]

Melhores resultados são alcançados quando um especialista gera um conjunto de características conforme a aplicação a se feita para estes dados, se tal conhecimento não está disponível técnicas de redução dimensional genéricas podem ajudar. Algumas delas são:

  • Análise de componentes principais
  • Imersão semi-definida (Semidefinite embedding)
  • Redução dimensional com multiplos fatores (Multifactor dimensionality reduction)
  • Redução dimensional não-linear (Nonlinear dimensionality reduction)
  • Isomap
  • Núcleo PCA (Kernel PCA)
  • Análise semântica latente (Latent semantic analysis)
  • (Partial least squares)
  • Análise de componentes independentes (Independent Component Analysis)

Processamento de imagens

Pode ser usado na área de processamento de imagens que envolve usar algoritmos para detectar e isolar porções desejadas ou formas (características) de uma imagem digitalizada ou vídeo. É particularmente importante na área de Reconhecimento Ótico de Caracteres (OCR).

Ver também

Referências

  1. Alpaydin, Ethem (2010). Introduction to Machine Learning. London: The MIT Press. p. 110. ISBN 978-0-262-01243-0. Consultado em 4 de fevereiro de 2017