Estatística não paramétrica

A estatística não paramétrica é uma área da estatística que se caracteriza por métodos e técnicas que não dependem de pressupostos específicos sobre a distribuição dos dados ou parâmetros da população. Em contraste com a estatística paramétrica, que exige que os dados sigam uma distribuição bem definida (como a distribuição normal), os métodos não paramétricos são mais flexíveis e aplicáveis a uma ampla variedade de situações, especialmente quando as características dos dados são desconhecidas ou difíceis de modelar.

Esses métodos incluem testes de hipóteses, estimativas e modelos que funcionam sem a necessidade de parâmetros como média ou variância, tornando-os ideais para dados categóricos, ordinais ou para amostras pequenas. Exemplos notáveis são os testes de Mann-Whitney, Kruskal-Wallis e o uso de estatísticas de ordem.

Definições

Em estatística, o termo "estatística não paramétrica" pode ser entendido de diferentes formas, refletindo nuances no uso e na aplicação do conceito.

Primeira Definição: Métodos de Distribuição Livre
O primeiro significado de "não paramétrica" refere-se a técnicas que não dependem de dados associados a uma distribuição específica. Entre essas técnicas, destacam-se:
  • Métodos de distribuição livre: Não dependem de suposições sobre uma distribuição de probabilidade específica para os dados, sendo amplamente usados em situações onde os dados apresentam comportamento aleatório ou caótico. Esses métodos são o oposto da estatística paramétrica e incluem abordagens como estatística descritiva, inferência estatística e testes de hipóteses não paramétricos.
  • Estatísticas não paramétricas: Nesse sentido, referem-se a funções calculadas sobre uma amostra que não dependem de parâmetros populacionais. A interpretação dessas estatísticas é válida independentemente de qualquer parametrização da população. Exemplos incluem as estatísticas de ordem, baseadas no ranking das observações, que desempenham um papel central em muitas abordagens não paramétricas.
Hipóteses e Classificações

De acordo com o livro Kendall's[1], as hipóteses estatísticas podem ser classificadas da seguinte forma:

  1. Hipótese paramétrica (a e b): A distribuição subjacente aos dados é especificada (exemplo: distribuição normal), e a hipótese trata apenas de parâmetros específicos como média ou variância.
  2. Hipótese não paramétrica (c): A distribuição é definida, mas nenhum valor de parâmetro específico é fornecido.
  3. Hipótese de distribuição livre (d): Nem os parâmetros, nem a forma da distribuição são especificados.

Embora a distinção entre "não paramétrica" e "distribuição livre" seja útil, muitos textos estatísticos utilizam o termo "não paramétrica" para ambos os casos, levando a certa imprecisão conceitual.

A seguinte discussão foi retirada do livro Kendall's.[2]

Hipóteses estatísticas dizem respeito ao comportamento de variáveis aleatórias observáveis... Por exemplo, a hipótese (a) que a distribuição normal tem uma média e uma variância especificados é estatística; Assim é a hipótese (b) de que tem uma hipótese dada mas uma variância não especificada; Assim é a hipótese (c) que a distribuição tem a forma normal com tanto a média quanto a variância não especificadas; Por fim, temos a hipótese (d) de que duas distribuições contínuas não especificadas são idênticas.

É notável que nos exemplos (a) e (b) a distribuição subjacentes às observações são de certa forma (normal) e a hipótese diz respeito inteiramente a valores de uma ou duas variáveis dos parâmetros. Essa hipótese é, portanto, chamada de "paramétrica".[carece de fontes?]

A hipótese (c) foi de natureza diferente, pois nenhum dos valores dos parâmetros foram especificados na afirmação da hipótese; Nós podemos chamar essa hipótese de "não paramétrica". A hipótese (d) também é "não paramétrica" mas, além disso, não especifica a forma da distribuição, e por isso podemos nos referir como "distribuição livre". Apesar destas distinções, a literatura estatística utiliza comumente o termo "não paramétrica" para procedimentos de teste que nós acabamos de nos referir como "distribuição livre", perdendo assim uma classificação útil.[carece de fontes?]

Segunda Definição: Técnicas Não Paramétricas de Modelagem
O segundo significado de "não paramétrica" refere-se a técnicas onde a estrutura do modelo não é fixa, podendo crescer ou se ajustar à complexidade dos dados. Nesses métodos, variáveis individuais geralmente seguem distribuições paramétricas, mas a modelagem geral não depende de um número fixo de parâmetros. Exemplos incluem:
  • Regressão não paramétrica: Modela as relações entre variáveis sem assumir uma estrutura fixa, embora possam ser feitas suposições paramétricas sobre os resíduos do modelo.
  • Modelos hierárquicos bayesianos não paramétricos: Como aqueles baseados no processo de Dirichlet, que permite o crescimento do número de variáveis latentes conforme necessário para ajustar os dados. Embora as variáveis individuais sigam distribuições paramétricas, o processo que controla o crescimento latente também segue uma distribuição paramétrica. Essa abordagem flexível é amplamente usada em áreas como aprendizado de máquina, estatística bayesiana e modelagem complexa de dados.

Aplicações e propósito

Os métodos não paramétricos são amplamente utilizados em estudos que envolvem populações classificadas em termos de rankings, como a avaliação de filmes que recebem entre uma e quatro estrelas. Esses métodos também são úteis em situações onde os dados possuem rankings, mas carecem de uma interpretação numérica clara, como na análise de preferências. Nesse contexto, os métodos não paramétricos operam em escalas que resultam em dados "em ordem".

Vantagens

  1. Amplitude de aplicação: Por fazerem menos suposições sobre os dados, os métodos não paramétricos podem ser aplicados em problemas nos quais há pouco conhecimento prévio sobre a distribuição ou estrutura dos dados.
  2. Robustez: Por dependerem menos de hipóteses rigorosas, esses métodos são mais robustos contra desvios de normalidade ou outliers, tornando-os uma escolha confiável em condições incertas.
  3. Simplicidade: Em alguns casos, mesmo quando os métodos paramétricos são apropriados, os métodos não paramétricos oferecem uma abordagem mais simples. Essa simplicidade reduz o risco de erros ou interpretações equivocadas, sendo frequentemente considerada uma alternativa mais segura.

Desvantagens

Apesar das vantagens, os métodos não paramétricos possuem uma limitação: menor potência estatística. Quando os métodos paramétricos são adequados, os testes não paramétricos geralmente requerem amostras maiores para alcançar o mesmo nível de confiança nas conclusões. Essa desvantagem pode impactar a eficiência, especialmente em estudos onde o tamanho da amostra é restrito.

Por essas razões, os métodos não paramétricos ocupam um papel central em situações com dados de classificação ou rankings, mas devem ser utilizados de maneira estratégica, levando em conta o equilíbrio entre simplicidade, robustez e potência estatística.

Modelos não paramétricos

Os modelos não paramétricos se distinguem dos modelos paramétricos por não exigir uma estrutura de modelo pré-definida. Em vez disso, essa estrutura pode ser determinada com base nos dados observados. Embora o termo "não paramétrico" sugira ausência de parâmetros, ele na verdade se refere a modelos nos quais o número e a natureza dos parâmetros são flexíveis e não fixados antecipadamente.

  • Histograma: Um histograma é uma simples estimação não paramétrica da distribuição de probabilidade. Ele fornece uma visualização do padrão dos dados sem fazer suposições sobre a forma da distribuição.
  • Estimativa de densidade kernel: Essa técnica oferece estimativas de densidade mais suaves e precisas que os histogramas, utilizando uma função kernel para ajustar os dados.
  • Regressão não paramétrica: Baseada em métodos como kernels, splines e wavelets, a regressão não paramétrica modela relações complexas entre variáveis sem impor uma estrutura paramétrica fixa.
  • Regressão semi-paramétrica: Essa abordagem combina elementos paramétricos e não paramétricos, permitindo uma modelagem flexível, especialmente em casos de dados complexos.
  • Análise por envoltória de dados (DEA): A análise DEA fornece coeficientes similares aos da análise multivariada, mas sem fazer suposições sobre a distribuição dos dados. Ela é útil para avaliar a eficiência relativa de unidades de decisão em diversas áreas, como economia e finanças.

Esses métodos são amplamente utilizados quando as distribuições dos dados são desconhecidas ou quando se deseja evitar suposições restritivas. Embora ofereçam flexibilidade, também exigem cuidados em termos de interpretação e aplicação, especialmente quando comparados a modelos paramétricos.

Métodos

Métodos de inferência estatística não paramétricos (ou distribuição livre) são procedimentos matemáticos para testes de hipóteses que, diferentemente da estatística paramétrica, não fazem suposições sobre distribuição de probabilidade das variáveis a serem consideradas. Mais frequentemente esses testes incluem:

  • Teste de Anderson–Darling: testa se uma amostra é retirada de uma distribuição dada;
  • Método estatístico de bootstrap: Estima a precisão/amostragem da distribuição estatística;
  • Q de Cochran: Testa se "k" tratamentos em blocos aleatórios com 0/1 de resultado têm efeitos idênticos;
  • Kaplan–Meier: estima a função de sobrevivência a partir de dados de tempo de vida;
  • Tau de Kendall: mede a dependência estatística entre duas variáveis;
  • Teste de Kolmogorov–Smirnov: testa se uma amostra é retirada de uma distribuição dada ou se duas amostras são da mesma distribuição;
  • Teste de Kuiper: testa se uma amostra é retirada de uma distribuição dada, sensível a variações cíclicas, como os dias da semana;
  • Teste de Mann–Whitney: testa se duas amostras são retiradas da mesma distribuição, em relação a uma dada hipótese alternativa. Trata-se de um teste semi não paramétrico;
  • Teste da mediana: testa se duas amostras são retiradas de distribuições com médias iguais;
  • Teste da permutação de Pitman: um teste de significância estatística que produz valores exatos "p", examinando todos os possíveis rearranjos;
  • Teste de Siegel–Tukey: teste que procura diferenças de escala entre grupos;
  • Teste de Conover ao quadrado: testa a igualdade das variâncias em duas ou mais amostras;
  • Teste de sequências de Wald–Wolfowitz: testa se os elementos de uma sequência são mutuamente independentes/aleatórios;
  • Teste dos postos sinalizados de Wilcoxon: testa se um par de amostras retirados de uma população tem médias diferentes.

Ver também

Notas

  1. Annis, David H (1 de dezembro de 2006). «Kendall's Advanced Theory of Statistics, Vol. 1: Distribution Theory, Kendall's Advanced Theory of Statistics, Vol. 2A: Classical Inference and the Linear Model». Journal of the American Statistical Association (476): 1721–1721. ISSN 0162-1459. doi:10.1198/jasa.2006.s140. Consultado em 16 de dezembro de 2024 
  2. Stuart A., Ord J.K, Arnold S. (1999), Kendall's Advanced Theory of Statistics: Volume 2A—Classical Inference and the Linear Model, sixth edition, §20.2–20.3 (Arnold).

Referências gerais

  • Bagdonavicius, V., Kruopis, J., Nikulin, M.S. (2011). "Non-parametric tests for complete data", ISTE&WILEY: London&Hoboken. ISBN 978-1-84821-269-5
  • Corder, G.W. & Foreman, D.I. (2009) Nonparametric Statistics for Non-Statisticians: A Step-by-Step Approach, Wiley ISBN 978-0-470-45461-9
  • Gibbons, Jean Dickinson and Chakraborti, Subhabrata (2003) Nonparametric Statistical Inference, 4th Ed. CRC ISBN 0-8247-4052-1
  • Hettmansperger, T. P.; McKean, J. W. (1998). Robust nonparametric statistical methods. John Wiley and Sons, Inc. Col: Kendall's Library of Statistics. 5 First ed. London: Edward Arnold. pp. xiv+467 pp. ISBN 0-340-54937-8, 0-471-19479-4 Verifique |isbn= (ajuda). MR 1604954 
  • Wasserman, Larry (2007) All of nonparametric statistics, Springer. ISBN 0-387-25145-6