Matriz de confusãoNo campo do Aprendizado de Máquina uma matriz de confusão é uma tabela que permite a visualização do desempenho de um algoritmo de classificação [1] .
Essa tabela de contingência 2x2 especial é também chamada de matriz de erro[2]. Cada linha da matriz representa instâncias de uma classe prevista enquanto cada coluna representa instâncias da classe real (ou vice versa)[3]. O nome vem do fato que é fácil ver se o sistema está confundindo as duas classes (chamando uma classe como a outra). É um tipo especial de tabela de contingência, com duas dimensões ("real" e "prevista"), e conjuntos de "classes" idênticos em ambas as dimensões (cada combinação das dimensões e classe é uma variável na tabela de contingência). ExemploDada uma amostra de 13 fotos, 8 de gatos e 5 de cachorros, onde os gatos pertencem à classe 1 e os cães pertencem à classe 0,
Suponha que um classificador que distingue entre cachorros e gatos seja treinado. Das 13 fotos examinadas, o classificador faz 8 previsões precisas e erra 5, sendo que 3 gatos são erroneamente previstos como cachorros (primeiras 3 previsões) e 2 cachorros são erroneamente previstos como gatos (últimas 2 previsões).
Com esses dois conjuntos rotulados (reais e previsões), podemos criar uma matriz de confusão que resumirá os resultados do teste do classificador:
Nessa matriz de confusão, das 8 fotos de gatos, o sistema avaliou que 3 eram cachorros e, das 5 fotos de cachorros, previu que 2 eram gatos. Todas as previsões corretas estão localizadas na diagonal da tabela (destacada em negrito), portanto, é fácil inspecionar visualmente a tabela em busca de erros de previsão, pois eles serão representados por valores fora da diagonal. Em termos abstratos, a matriz de confusão é a seguinte:
Onde: P = Positivo; N = Negativo; VP = Verdadeiro Positivo; FP = Falso Positivo; VN = Verdadeiro Negativo; FN = Falso Negativo. Matriz de ConfusãoEm análise preditiva, a matriz de confusão (às vezes também chamada de 'matriz de erro' ou 'tabela de confusão' ) é uma tabela com duas linhas e duas colunas que relata o número de falsos positivos , falsos negativos , verdadeiros positivos e verdadeiros negativos . Isso permite uma análise mais detalhada do que a mera proporção de classificações corretas (precisão). A precisão produzirá resultados enganosos se o conjunto de dados estiver desequilibrado; isto é, quando o número de observações em diferentes classes variam muito. Por exemplo, se houver 95 gatos e apenas 5 cachorros nos dados, um determinado classificador pode classificar todas as observações como gatos. A precisão geral seria de 95%, mas com mais detalhes o classificador teria uma taxa de reconhecimento de 100% para a classe de gatos, mas uma taxa de reconhecimento de 0% para a classe de cães. O F1 Score (ou f-measure) é ainda mais confiável em tais casos, e aqui renderia mais de 97,4%, enquanto remove o viés e produz 0 como a probabilidade de uma decisão informada para qualquer forma de suposição (aqui sempre supondo gato). Supondo a matriz de confusão acima, a tabela correspondente para a classe gato seria:
A tabela final contém os valores médios de todas as classes combinadas.
|