X

Dúvidas sobre estatística paramétrica e não paramétrica

Oi Fernando, como vais?

Tu sabes que tu és meu “Feynman” da estatística – por que não abres outro blog sobre questões estatísticas????

A consulta é a seguinte:

Tenho um aluno de doutorado fascinado pelo SPSS mas que não sabe muito bem como utilizá-lo.

Deixa-me maluca apresentando resultados de testes para cima e para baixo, que não sabe interpretar . Assim as minhas dúvidas são:

1– se tenho uma amostra grande (mais de 300 sujeitos) faz sentido, embora fazendo uma análise eu possa ver que  a distribuição não é normal, usar uma estatística não paramétrica?

2– Se usamos um instrumento do tipo likert — ou seja, tenho uma medida que não é continua, porém os valores não são muito dispersos ( de 0 a 3, 0 de 0 a 5 ), faz sentido falar de mediana e de desvio padrão quando a amostra é grande? Ou com a média e o erro estatístico é suficiente?

Obrigada!!! Abs

Respondido por: Prof. Fernando Lang da Silveira - www.if.ufrgs.br/~lang/

Prezada XYZ

Gostei da brincadeira com o “Feynman da estatística”.  ?

No Pergunte ao CREF também podemos responder sobre estatística e farei isto com os teus questionamentos, possibilitando então que  outras pessoas poderão tenham acesso às respostas.

Em amostras grandes é usual se rejeitar a hipótese de normalidade pois as distribuições reais tendem a não ser gaussianas de fato. Para começar uma distribuição gaussiana é contínua e não discreta como são as distribuições reais de dados psicológicos e/ou educacionais. Distribuições reais podem possuir assimetria e curtose diferentes da gaussiana.

Conforme cresce a amostra, cresce o poder dos testes de aderência a uma determinada distribuição teórica (gaussiana ou outras) de detectar a discrepância entre a distribuição teórica e a distribuição real, particular dos dados. Desta forma quando tivermos amostras grandes de dados discretos, a tendência é pela rejeição da hipótese de que tal amostra é proveniente de uma população com distribuição gaussiana ou normal.

Entretanto os testes de significância da estatística paramétrica não pressupõem normalidade para a distribuição dos dados. A normalidade pressuposta é para a distribuição das MÉDIAS amostrais e aí entra o Teorema Central do Limite (TCL) que afirma que não importando qual seja a distribuição dos dados, a distribuição das médias amostrais tende a ser gaussiana conforme  aumenta o tamanho da amostra.

O TCL pode ser exemplificado com amostras de distribuições notoriamente não normais, por exemplo distribuições discretas multinomiais e até binomiais conforme verificas em Exemplificações do Teorema Central do Limite na distribuição das médias amostrais.

Ao final da apresentação disponível em researchgate1  encontras a sintaxe do SPSS para as simulações da postagem do CREF.  Olha também Exemplificação do Teorema Central do Limite na soma de 5 variáveis aleatórias e researchgate2.

Os testes da estatística não paramétrica sempre podem ser utilizados, mesmo quando os pressupostos para a utilização da estatística paramétrica estão preenchidos. Entretanto os testes de significância estatística não paramétricos são menos poderosos do que os equivalentes paramétricos. O poder (power) de um teste é definido como a probabilidade de rejeitar a hipótese nula quando de fato a hipótese alternativa é verdadeira.

Então quando rejeitamos a hipótese nula utilizando um teste não paramétrico podemos crer que a rejeição com um teste paramétrico também ocorreria. No século passado ?, mais precisamente em 1991, fizemos um estudo empírico retirando da literatura sobre testes não paramétricos diversos exemplos e refizemos as análises com testes paramétricos. Vide researchgate3 e notarás que os resultados foram muito semelhantes.

A utilização da estatística não paramétrica, se por um lado supera algumas restrições sobre os pressupostos subjacentes aos testes paramétricos, por outro lado restringe as análises possíveis (além de ser menos poderosa conforme notado anteriormente).

Muitas técnicas multivariadas paramétricas não têm equivalentes não paramétricos. Por exemplo, o estudo que realizamos em 1999 sobre o poder explicativo que 15 variáveis socioeconômicas e educacionais apresentavam  para o desempenho de 35 mil candidatos em 9 provas do concurso vestibular da UFRGS não poderia ser realizado no âmbito da estatística não paramétrica (vide researchgate4). Caso se abordasse por técnicas não paramétricas tal investigação, não teríamos como extrair o efeito explicativo das 15 variáveis em conjunto mas apenas uma de cada vez.

O desvio padrão é uma medida universal de dispersão, isto é, independentemente da forma da distribuição mede o espalhamento dos dados em torno da média (uma das tantas medidas de tendência central) conforme posto na desigualdade de Chebychev.

O que chamas de erro estatístico possivelmente é o desvio padrão da média. Enquanto o desvio padrão informa sobre a dispersão dos dados, o desvio padrão da média informa quão variável é a média do conjunto de dados e pode ser utilizado para construir intervalos de confiança para a média da população.  O desvio padrão da média expressa a incerteza que temos sobre a média de uma amostra de dados.

O desvio padrão da média diminui conforme a amostra aumenta enquanto o desvio padrão dos dados somente flutua aleatoriamente quando uma amostra é aumentada. Então há que se ter cuidado com o uso dessas duas estatísticas (desvio padrão e desvio padrão da média) pois dão informações diferentes e que não podem ser confundidas.

Finalmente, dado que os valores das variáveis numa escala de concordância/discordância tipo likert  são poucos, sempre podemos fornecer a distribuição de frequências das respostas além ou em substituição das medidas de tendência (média, moda, mediana, …) e dispersão (desvio padrão, amplitude. …) com o objetivo de descrição dos resultados.

Outras postagens sobre Estatística e probabilidade.

“Docendo discimus.” (Sêneca)


Acrescente um Comentário:

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *