As medidas de dispersão são úteis para nos ajudar a entender os padrões dos dados de nossas pesquisas. Por exemplo, sabendo-se o quanto dois amigos caminharam ao longo de uma semana, podemos fazer algumas perguntas. Qual deles teve a caminhada mais longa durante a semana? E qual deles teve a caminhada mais curta? Qual dos dois foi mais estável em sua prática física ao longo da semana?
Diferentes medidas de dispersão nos auxiliam a dar respostas a cada uma dessas perguntas. Por isso, neste post, nosso objetivo será explorar o que são medidas de dispersão. Além disso, descreveremos as principais delas: a amplitude, a variância e o desvio-padrão.
Para que servem as medidas de dispersão?
Em estatística descritiva, o termo variabilidade (também chamado de espalhamento ou de dispersão) se refere à quantidade de variação existente em um conjunto de dados.
Sendo assim, as medidas de dispersão quantificam a magnitude dessa variação e, desse modo, permitem comparar índices entre diferentes grupos ou diferentes conjuntos de dados.
Outra utilidade das medidas de dispersão na pesquisa científica está em nos ajudar a identificar valores extremos ou mesmo erros de digitação no banco de dados.
Além disso, levando-se em consideração a dispersão dos dados, podemos fazer previsões sobre a probabilidade de observarmos diferentes valores em nossa amostra. É o que fazemos, por exemplo, quando usamos propriedades conhecidas da distribuição normal.
Em seguida, veremos como calcular e como interpretar as três principais medidas de dispersão que você precisa conhecer.
Ilustração de dados com menor e maior dispersão
Para ilustrar os cálculos, usaremos um exemplo simples envolvendo os amigos Carlos e Diego. A Figura 1 mostra as distâncias das caminhadas que Carlos realizou ao longo da semana. Nela, a linha horizontal cinza representa a média semanal de Carlos (M = 3), enquanto os pontos azuis representam suas caminhadas diárias.
As linhas pontilhadas vermelhas indicam a distância entre a caminhada em um determinado dia e a média semanal (isto é, os desvios). Note, portanto, que as caminhadas de Carlos flutuaram pouco ao redor de sua média semanal.
A Figura 2 mostra as distâncias das caminhadas que Diego realizou ao longo da semana. Note que a média semanal de Diego foi idêntica a de Carlos (M = 3).
No entanto, o padrão de caminhadas diárias diferiu substancialmente entre os dois amigos. Carlos parece ter sido mais consistente em suas caminhadas diárias; Diego, por outro lado, teve um comportamento mais heterogêneo ao longo da semana.
Como veremos a seguir, as diferentes medidas de dispersão tentarão capturar essa menor (Carlos) e maior (Diego) dispersão dos dados ao redor da média.
Como calcular a amplitude?
Para calcularmos a amplitude, devemos antes identificar o valor mínimo e o valor máximo observado em um conjunto de dados. A amplitude será a diferença entre esses dois valores:
Por exemplo, no caso de Carlos, mínimo = 2 e máximo = 4. Logo, amplitude = 4 – 2 = 2. No caso de Diego, mínimo = 0 e máximo = 6. Logo, amplitude = 6 – 0 = 6.
Note que Diego foi o detentor da menor caminhada semanal (0 km, isto é, ele efetivamente não caminhou na quinta-feira) e também da maior caminhada semanal (6 km, na sexta-feira). Os escores de amplitude, nesse caso, refletem o fato de que Diego foi mais instável que Carlos em suas caminhadas durante a semana. Em outras palavras, as caminhadas de Diego ao longo da semana foram mais dispersas que as de Carlos.
A amplitude é útil para identificarmos rapidamente anomalias no banco de dados. Por exemplo, imagine que você aplicou um instrumento de 10 itens usando papel e caneta, com respostas variando de 1 (discordo totalmente) a 5 (concordo totalmente). Se você identifica um item com amplitude = 54 (mínimo = 1 e máximo = 55), então é possível que você esteja diante de um erro de resposta ou de tabulação nos dados.
No entanto, um problema com a amplitude é que ela não faz uso de todas as informações disponíveis no banco de dados. Além disso, a amplitude é sensível a valores extremos. Em outras palavras, a depender do valor mínimo ou máximo de um conjunto de dados, a amplitude pode distorcer a estimativa de dispersão dos dados.
Como calcular a variância?
Uma maneira de contornar os problemas da amplitude é fazer uso de medidas que levam em consideração todos os valores observados. A variância (s²) é uma dessas medidas, pois ela nos mostra quão espalhados os dados estão em relação à média. Sua fórmula é dada por:
onde x representa o escore da observação i em uma amostra, X-barra representa a média amostral, e N representa o tamanho amostral. Para fins didáticos, podemos decompor a fórmula da variância em uma série de cinco passos:
- 1º passo: calcular a média dos dados;
- 2º passo: calcular os desvios, definidos como as diferenças entre cada valor e a média;
- 3º passo: calcular os desvios quadráticos, definidos como os valores dos desvios (obtidos no 2º passo) elevados ao quadrado (os valores são elevados ao quadrado porque isso garante que desvios positivos e negativos não se anularão);
- 4º passo: somar os desvios quadráticos obtidos no 3º passo;
- 5º passo: dividir a soma obtida no 4º passo por N – 1 para obter o valor da variância.
A Figura 3 apresenta a aplicação desses cinco passos aos dados de Carlos. Ao final, obtemos uma variância mais baixa, s² = 0,50 km².
Por outro lado, a Figura 4 apresenta esses mesmos cinco passos aos dados de Diego. Aqui obtemos uma variância mais alta, s² = 6,50 km².
Em resumo, temos que a dispersão das caminhadas em relação às respectivas médias é numericamente maior para Diego do que para Carlos.
Como calcular o desvio-padrão?
No entanto, a variância possui uma importante limitação: seu valor é expresso em unidades quadráticas, o que dificulta sua interpretação. Seria mais fácil interpretar uma medida que fosse expressa na mesma unidade que nossa variável original, pois isso estaria mais alinhado à nossa intuição.
Felizmente, o desvio-padrão (representado por DP) é uma medida que pode ser usada com essa finalidade. Sua fórmula é dada por:
A fórmula é quase idêntica a da variância, exceto que, ao final, tiramos a raiz quadrada do valor obtido no 5º passo. Em outras palavras, a fórmula do desvio-padrão inclui um 6º passo, a saber, DP = √(s²).
Com base no exemplo anterior, temos que, para Carlos, DP = √0,50 = 0,71 km; e, para Diego, DP = √6,50 = 2,55 km. Mais uma vez, as estatísticas refletem a maior variabilidade no engajamento em caminhadas por parte de Diego ao longo da semana. Usando o desvio-padrão, podemos interpretar essa variabilidade em quilômetros, isto é, na mesma unidade que nossa variável original foi expressa.
Resumo final sobre as medidas de dispersão
Neste post, exploramos três medidas de dispersão: a amplitude, a variância e o desvio-padrão. Das três medidas, a mais fácil de ser calculada é a amplitude. No entanto, como a amplitude não usa toda a informação disponível, sua aplicação é mais limitada, como para a checagem de anomalias no banco de dados.
A variância e o desvio-padrão usam todas as observações em suas fórmulas. Contudo, é por meio do desvio-padrão que podemos fazer interpretações mais alinhadas às nossas intuições. Desse modo, costumamos preferir o desvio-padrão na apresentação de estatísticas descritivas.
Por outro lado, a variância reaparece nas famosas análises de variância (ANOVAs), bem como nas matrizes de variância–covariância da modelagem por equações estruturais.
Agora que você sabe como calcular as principais medidas de dispersão, você tem uma compreensão mais profunda de como interpretá-las. Na prática, você raramente precisará calcular manualmente esses valores: softwares estatísticos (e.g., SPSS, JASP, Jamovi, etc.) fornecem facilmente essas medidas de dispersão.
Gostou desse conteúdo? Aproveite e se inscreva em nosso canal do YouTube para seguir acompanhando nossos conteúdos.
Se você precisa aprender análise de dados, então faça parte da Psicometria Online Academy, a maior formação de pesquisadores quantitativos da América Latina. Conheça toda nossa estrutura aqui e nunca mais passe trabalho sozinho(a).
Referências
Field, A. (2017). Discovering statistics using IBM SPSS Statistics (5th ed.). Sage.
Howell, D. C. (2013). Describing and exploring data. In D. C. Howell, Statistical methods for psychology (8th ed., pp. 15–62). Cengage Wadsworth Learning.
Como citar este post
Lima, M. (2023, 16 de março). Medidas de dispersão: A amplitude, a variância e o desvio-padrão. Blog Psicometria Online. https://www.blog.psicometriaonline.com.br/medidas-de-dispersao-amplitude-a-variancia-e-o-desvio-padrao/