A multicolinearidade é uma situação em que duas ou mais variáveis independentes em um modelo de regressão encontram-se altamente correlacionadas.
Essa alta correlação pode afetar a qualidade dos resultados do modelo e dificultar a interpretação dos resultados.
Por exemplo, imagine que você queira estimar o efeito da escolaridade e renda na satisfação com a vida. Aqui no Brasil, renda e escolaridade são altamente correlacionadas. Isso pode dificultar a interpretação dos resultados do modelo, uma vez que a contribuição de cada variável para explicar a variável dependente fica menos clara.
Assim, é importante detectar a multicolinearidade antes de realizar a análise para que possa ser tratada adequadamente.
Como identificar a multicolinearidade?
Uma maneira de detectar a multicolinearidade é examinar a matriz de correlação das variáveis independentes. Correlações altas, acima de 0,70 entre pares de variáveis indicam que elas estão fortemente correlacionadas. Correlações acima de 0,80 são ainda mais preocupantes.
Outro indicador é o valor do fator de inflação da variância (VIF), que mede quanto a variância do coeficiente estimado para uma variável é inflada devido à multicolinearidade com as outras variáveis independentes. VIFs maiores que 10 indicam alta multicolinearidade, enquanto valores entre 5 e 10 podem ser preocupantes.
A multicolinearidade é o mesmo fenômeno, só que para mais do que duas variáveis. Ou seja, quando três ou mais variáveis tem uma relação (quase) perfeita entre si.
Como lidar com a multicolinearidade?
Existem várias técnicas que podem ser utilizadas para lidar com a multicolinearidade:
Técnica 1: exclusão de variáveis
A maneira mais simples de lidar com a multicolinearidade é excluir a variável multicolinear. Isso pode ser feito sem perda de informação, já que aquela variável está redundante com outras variáveis. No entanto, essa técnica pode ser problemática, especialmente se a variável excluída for importante para a análise.
Técnica 2: agrupamento de variáveis
Outra maneira é realizar um agrupamento das variáveis multicolineares, por meio de técnicas de redução, como Análise de Componentes Principais (ACP). Nesse caso, ao invés de utilizar múltiplas VIs, gera-se um escore único, a partir de uma variável de agrupamento, gerada pela Análise de Componentes Principais (ACPs). A vantagem dessa técnica é que o modelo se torna mais parcimonioso. A desvantagem é que você perde a informação de cada preditor individualmente.
Técnica 3: Modelagem por equações estruturais
A modelagem por equações estruturais é um avanço das regressões tradicionais (lineares ou logísticas) e permite modelar as relações entre variáveis. Nesse caso, é possível incluir a correlação entre as variáveis colineares no modelo, purificando-o. Por exemplo, na imagem abaixo, veja que há uma correlação entre renda e escolaridade estimada no modelo (seta bidirecional vermelha). Após controlar pelo nível de correlação entre renda e escolaridade, o efeito das variáveis independentes na variável dependente será adequadamente estimado.
Conclusão
A multicolinearidade é um problema que pode comprometer a interpretação dos resultados de modelos de regressão. É importante identificar a multicolinearidade e escolher a técnica mais adequada para lidar com ela. As técnicas apresentadas neste post são eficientes para lidar com a multicolinearidade e garantir a qualidade dos resultados obtidos.
Gostou desse conteúdo? Precisa aprender Análise de dados? Faça parte da Psicometria Online Academy: a maior formação de pesquisadores quantitativos da América Latina. Conheça toda nossa estrutura aqui e nunca mais passe trabalho sozinho(a).
Como citar este post
Damásio, B. (2021, 3 de maio). O que é multicolinearidade, como identificar e como lidar? Blog Psicometria Online. https://www.blog.psicometriaonline.com.br/o-que-e-multicolinearidade/