O seu Blog de Psicometria

Tenha acesso à nossa enciclopédia virtual de conhecimento em Psicometria e Análise de Dados

Junte-se a mais de 22.300 membros e receba conteúdos exclusivos e com prioridade

Compartilhe nas Redes Sociais

Como testar a normalidade da amostra com os testes de Kolmogorov-Smirnov e de Shapiro-Wilk?

Marcos Lima

jul 8, 2021

Como testar a normalidade da amostra? Neste post, realizaremos e interpretaremos os resultados de dois testes apropriados para esse fim, a saber, os testes de Kolmogorov-Smirnov e e de Shapiro-Wilk. Em nosso tutorial, usaremos o software estatístico SPSS. Contudo, caso tenha interesse em saber mais sobre o teste de Shapiro-Wilk e como executá-lo no JASP, veja nossos posts sobre esse tema.

Por que testar a normalidade dos dados?

Os testes de Kolmogorov-Smirnov e de Shapiro-Wilk são utilizados para testar a normalidade da amostra, isto é, para avaliar se uma amostra segue uma distribuição normal.

A distribuição normal é uma distribuição de probabilidade comumente usada em ciências para modelar fenômenos naturais. Nessa distribuição, os valores têm um pico no centro, espalhando-se simetricamente ao redor desse ponto. Como resultado, os dados tendem a apresentar um formato de sino (veja a Figura 1).

distribuição de normalidade teórica.
Figura 1. Distribuição normal teórica.


Você pode se perguntar: “Por que eu deveria me preocupar com a normalidade dos meus dados?”. A resposta a essa pergunta é que muitos testes estatísticos assumem que a distribuição dos dados é normal. Em outras palavras, o bom funcionamento desses testes, em termos de controle da taxa de erro do Tipo I e de poder estatístico, depende de o pressuposto ser acatado nos dados.

Considere, por exemplo, as três variáveis da Figura 2. Em uma regressão linear, se os resíduos tivessem uma distribuição similar aos dados do painel esquerdo, não nos preocuparíamos com o viés de nosso modelo, pois a regressão assume resíduos normalmente distribuídos.

dados para testar a normalidade das distribuições.
Figura 2. Exemplos de distribuições de dados.

No entanto, se os resíduos se distribuíssem tal como os dados dos painéis central ou direito da Figura 2, isso colocaria em questão a confiabilidade dos parâmetros de nosso modelo.

Em síntese, é bem comum precisarmos avaliar nossos dados têm distribuição aproximadamente normal. Todavia, se isso não puder ser assumido, devemos usar técnicas estatísticas robustas à violação de normalidade, realizar transformações das variáveis de interesse ou mesmo optar pelo uso de técnicas estatísticas não paramétricas.

Como o teste de Kolmogorov-Smirnov funciona?

O teste de Kolmogorov-Smirnov, também conhecido como teste K-S, busca avaliar a distância entre a distribuição empiricamente observada (i.e., os dados coletados) e uma distribuição de referência.

Por exemplo, a Figura 3 apresenta as funções de distribuições acumuladas dos dados apresentados anteriormente (linha azul) e de distribuições normais com médias e desvios-padrões iguais aos dos dados (linha vermelha).

como testar a normalidade com o teste de kolmogorov-smirnov.
Figura 3. Funções de distribuições acumuladas dos dados e dos modelos.

Conceitualmente, o teste de Kolmogorov-Smirnov compara se os dados observados se ajustam à distribuição de referência. Em outras palavras, quanto mais próxima cada linha azul for da linha vermelha correspondente, mais provável é que os dados tenham aderência à distribuição de referência (em nosso caso, a distribuição normal).

A hipótese nula do teste é de que os dados não diferem da distribuição de referência. Por outro lado, a hipótese alternativa afirma que os dados diferem da distribuição de referência. Portanto, se queremos apoiar o pressuposto de normalidade de uma variável, precisamos que o valor de p seja maior que o nível de significância estabelecido (comumente, 0,05).

O que é correção de Lilliefors?

O teste de Kolmogorov-Smirnov é confiável quando estamos comparando nossos dados com uma distribuição normal conhecida, isto é, uma em que conhecemos os parâmetros populacionais. Por exemplo, se coletássemos escores de inteligência, poderíamos testar se nossos dados diferem de uma distribuição normal de referência, cuja média populacional é 100 e o desvio-padrão, 15.

Infelizmente, contudo, nós comumente desconhecemos os parâmetros da distribuição de referência. Em tais casos, o teste de Kolmogorov-Smirnov utiliza a média e o desvio-padrão dos próprios dados como estimativas dos parâmetros populacionais. A consequência disso é uma perda de poder estatístico – pois estamos artificialmente “ajudando” o teste a acertar duas informações sobre a distribuição de referência.

Desse modo, para solucionar esse problema, fazemos uma modificação na estatística do teste de Kolmogorov-Smirnov, conhecida como correção de Lilliefors. Essa correção não impacta na estatística obtida, mas modifica o valor crítico associado ao teste. Em outras palavras, a correção de Lilliefors ajusta a distribuição crítica contra a qual a estatística do teste será comparada, melhorando assim o poder estatístico do teste.

A interpretação do teste de Kolmogorov-Smirnov com a correção de Lilliefors é semelhante ao teste sem a correção, mas produz resultados mais confiáveis quando os parâmetros da distribuição de referência são desconhecidos.

Qual é a diferença entre os testes de Kolmogorov-Smirnov e de Shapiro-Wilk?

O teste de Kolmogorov-Smirnov pode ser usado para avaliar se nossos dados se conformam a qualquer distribuição de referência conhecida (e.g., normal, exponencial). Por outro lado, o teste de Shapiro-Wilk testa especificamente se os dados diferem de uma distribuição normal. Em outras palavras, não podemos usar este último teste para comparar os dados com outras distribuições.

Feita essa ressalva, o teste de Shapiro-Wilk funciona de maneira semelhante, tendo a hipótese nula de que as duas distribuições (empírica e normal) são iguais. Por sua vez, a hipótese alternativa é de que as distribuições não são iguais. Portanto, para considerarmos a distribuição como normal, também esperamos que p > 0,05.

Quando devo testar a normalidade dos dados com os testes de Kolmogorov-Smirnov ou de Shapiro-Wilk?

Embora o poder de ambos os testes se mostre baixo em amostras pequenas, estudos de simulação indicam que o teste de Shapiro-Wilk é superior ao teste de Kolmogorov-Smirnov em diversos tamanhos amostrais.

No entanto, se o interesse do pesquisador for comparar os dados com uma distribuição conhecida que não seja a distribuição normal, ele deverá necessariamente utilizar o teste de Kolmogorov-Smirnov.

Como testar a normalidade das distribuições no SPSS?

Neste tutorial, usaremos as três variáveis apresentadas nas Figuras 2 e 3. Como vimos na Figura 2, apenas a distribuição no painel esquerdo parece se aproximar de uma distribuição normal.

Assim que os dados já estiverem abertos, você pode solicitar os testes de normalidade no SPSS selecionando o caminho Analisar > Estatísticas descritivas > Explorar (Figura 4).

como proceder se eu quiser testar a normalidade no SPSS.
Figura 4. Caminho para solicitar os testes de normalidade no SPSS.

Em seguida, insira as variáveis que você quer testar a normalidade em Lista dependente e clique em Gráficos (Figura 5, painel esquerdo). Na nova janela que abrirá, certifique-se de marcar a opção Gráficos de normalidade com testes (Figura 5, painel direito). Clique em Continuar e, em seguida, em OK.

caminho para testar a normalidade no SPSS.
Figura 5. Opções para solicitar os testes de normalidade no SPSS.

Após clicar em OK, o SPSS gerará os resultados das análises solicitadas.

Como interpretar as saídas dos testes de normalidade?

Tabela de estatísticas descritivas

O SPSS produzirá uma tabela de estatísticas descritivas similar àquela ilustrada na Figura 6. Por questões de espaço, a Figura 6 apresenta apenas a seção das estatísticas para a distribuição de qui-quadrado (para fins de ilustração), embora o SPSS gere estatísticas para as duas demais variáveis.

saída do SPSS com a tabela descritivos.
Figura 6. Estatísticas descritivas geradas pelo SPSS (apenas distribuição de qui-quadrado).

A tabela de estatísticas descritivas contém informações relevantes sobre as variáveis, tais como medidas de tendência central (e.g., média, mediana) e de dispersão (e.g., desvio-padrão, variância).

Uma estatística que você talvez não conheça é a média aparada de 5%. Para obter esse valor, o SPSS ordena as observações da menor para a maior, e exclui os 5% menores valores, bem como os 5% maiores. Após essa exclusão, ele calcula a nova média amostral.

Diferenças substanciais entre as médias original e aparada podem indicar que valores extremos estão exercendo forte influência sobre a média original da amostra. É exatamente o que acontece na distribuição de qui-quadrado (Moriginal = 0,97, Maparada 5% = 0,74).

Além disso, os valores de assimetria e de curtose (Kurtosis) também são fornecidos como parte desta saída, trazendo informações sobre esses índices de simetria dos dados. Note que os valores são bem elevados nas duas estatísticas, indicando forte assimetria e curtose dos dados.

Saiba mais: Assimetria e curtose: um guia completo

Tabela com os testes de normalidade

A Figura 7 apresenta os resultados dos testes de normalidade gerados pelo SPSS.

testes de kolmogorov-smirnov e de shapiro-wilk no spss.
Figura 7. Saída dos testes de normalidade do SPSS.

Na Figura 7, as saídas do SPSS foram ligeiramente editadas, visando identificar os significados dos nomes das diferentes colunas apresentadas.

Tradicionalmente, o SPSS se refere à estatística dos testes simplesmente como Estatística. Referimo-nos às estatísticas dos testes de Kolmogorov-Smirnov e de Shapiro-Wilk pelas letras D e W, respectivamente. O valor de p é expresso no SPSS como Sig. Por fim, o termo df é a abreviação de degrees of freedom (graus de liberdade, em português).

Em seguida, interpretaremos os resultados dos testes da Figura 7 para as três distribuições:

  • Distribuição normal (painel esquerdo da Figura 2): os testes de Kolmogorov-Smirnov, D(300) = 0,03, p = 0,20, e de Shapiro-Wilk, W(300) = 0,99, p = 0,31, indicaram que os dados não diferem de uma distribuição normal;
    Distribuição qui-quadrado (painel central da Figura 2): os testes de Kolmogorov-Smirnov, D(300) = 0,27, p < 0,001, e de Shapiro-Wilk, W(300) = 0,60, p < 0,001, indicaram que os dados se afastam significativamente de uma distribuição normal;
    Distribuição uniforme (painel direito da Figura 2): os testes de Kolmogorov-Smirnov, D(300) = 0,08, p < 0,001, e de Shapiro-Wilk, W(300) = 0,94, p < 0,001, também indicaram que os dados se afastam significativamente de uma distribuição normal.

Em síntese, os dois testes indicaram que o pressuposto de normalidade foi violado nas distribuições qui-quadrado e uniforme, mas não na distribuição normal.

Os testes citados neste tutorial têm um problema em comum. Se a amostra for muito grande, eles tendem a rejeitar a hipótese nula, mesmo quando há apenas pequenos (e inconsequentes) desvios dos dados à distribuição normal. Portanto, para amostras grandes, devemos usar outros métodos além destes para avaliar a distribuição, como a análise de gráficos Q-Q.

Conclusão

Neste post, ensinamos você a realizar e a interpretar os testes de Kolmogorov-Smirnov e de Shapiro-Wilk, técnicas úteis para testar a normalidade da amostra. Por meio de três exemplos de distribuições, mostramos como interpretar os resultados dos testes conduzidos no SPSS.

Gostou desse conteúdo? Se você precisa aprender análise de dados, então faça parte da Psicometria Online Academy, a maior formação de pesquisadores quantitativos da América Latina. Conheça toda nossa estrutura aqui e nunca mais passe trabalho sozinho(a).

Referência

Field, A. (2017). Discovering statistics using IBM SPSS Statistics (5th ed.). Sage.

Como citar este post

Lima, M. (2021, 8 de julho). Como testar a normalidade da amostra com os testes de Kolmogorov-Smirnov e de Shapiro-Wilk? Blog Psicometria Online. https://www.blog.psicometriaonline.com.br/como-testar-a-normalidade-da-amostra-com-kolmogorov-smirnov-e-shapiro-wilk/

Bruno Figueiredo Damásio

Sou Psicólogo, mestre e doutor em Psicologia. Venho me dedicando à Psicometria desde 2007.

 

Fui professor e chefe do Departamento de Psicometria da UFRJ durante os anos de 2013 a 2020. Fui editor-chefe da revista Trends in Psychology, da Sociedade Brasileira de Psicologia (SBP) e Editor-Associado da Spanish Journal of Psychology, na sub-seção Psicometria e Métodos Quantitativos.

 

Tenho mais de 50 artigos publicados e mais de 5000 citações, nas melhores revistas nacionais e internacionais.

Compartilhe sua opinião sobre este post

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Posts sugeridos

Como realizar o teste de Shapiro-Wilk no JASP?

Curso R para Iniciantes

Como criar gráficos no R com o ggplot2?

Conteúdo

Mais lidos

O que é correlação de Pearson?

Teste t de Student

O que é o teste de Shapiro-Wilk?

O que é regressão linear múltipla?

Postados recentemente

Como definir a ordem de autoria do artigo científico?

Como realizar o teste de Shapiro-Wilk no JASP?

Bolsas de mestrado e de doutorado: como conseguir?

Dicas de como melhorar a sua escrita científica

Deseja se tornar completamente autônomo e independente na análise dos seus dados?

Junte-se a mais de 22.300 membros e receba conteúdos exclusivos e com prioridade

Categorias