Muito se fala sobre como realizar uma análise de regressão linear. No entanto, um assunto que recebe menos atenção é o das suposições da regressão linear.
Em síntese, suposições (ou pressupostos estatísticos) são condições que assumimos — de forma implícita ou explícita — sobre os dados, a fim de aplicarmos uma determinada técnica estatística. Desse modo, é importante checarmos se nossos dados atendem às suposições que o teste estatístico de interesse faz. Caso contrário, as inferências realizadas a partir da implementação do teste podem ser inacuradas.
Na prática, a regressão linear se baseia em uma série de suposições que precisamos considerar para garantirmos que nossos resultados são válidos. Por exemplo, será que, para utilizar a regressão linear, os dados precisam seguir uma distribuição normal? A resposta é mais sutil do que parece.
Em seguida, vamos explorar essas suposições de forma clara e objetiva.
Suposições da regressão linear – #1: Normalidade
Primeiramente, é importante compreender que a regressão linear — seja ela simples ou múltipla — não exige que os preditores (xs) nem o resultado (Y) sigam uma distribuição normal. O que realmente importa é que os resíduos sejam normalmente distribuídos.
Ou seja, mesmo com variáveis assimétricas, o modelo pode ser válido, desde que os resíduos (diferença entre valores observados e preditos) apresentem normalidade. Essa é uma das principais suposições da regressão linear e deve sempre ser verificada por meio de testes ou visualizações gráficas.
Saiba mais: O que é distribuição normal?
Suposições da regressão linear – #2: Linearidade
Além disso, outra suposição fundamental da regressão linear é justamente a linearidade entre as variáveis. Em outras palavras, o modelo assume que a relação entre cada variável preditora (x) e o desfecho (Y) é de natureza linear.
Caso a relação seja curvilinear, o modelo pode não captar bem os padrões dos dados. Por isso, é sempre recomendável verificar os gráficos de dispersão entre as variáveis antes de ajustar o modelo aos dados.
Suposições da regressão linear – #3: Homocedasticidade
A seguir, temos a suposição de homocedasticidade (também chamada de homogeneidade das variâncias), ou seja, a constância da variância dos resíduos ao longo dos valores preditos (Y-chapéu). Essa suposição afirma que o desvio-padrão dos resíduos deve ser aproximadamente o mesmo para todos os níveis das variáveis preditoras.
Se o nossos dados não atenderem essa suposição, estaremos diante da heterocedasticidade — o que pode afetar a precisão das estimativas e a validade dos testes estatísticos. Portanto, verificar essa suposição é essencial para garantir a robustez do modelo.
Veja também: O que é homocedasticidade na regressão linear?
Suposições da regressão linear – #4: Auência de colinearidade
Esse pressuposto se aplica particularmente para modelos de regressão linear múltipla. Em tais modelos, espera-se que os preditores não estejam fortemente correlacionados entre si. Quando nossos dados não respeitam essa condição, temos a chamada colinearidade.
Embora tecnicamente não seja uma suposição formal do modelo, a colinearidade pode tornar difícil a interpretação dos coeficientes, além de poder causar instabilidade na estimação dos parâmetros. Assim, é altamente recomendável avaliar a correlação entre os preditores antes de prosseguir com a análise.
Você também pode se interessar por: O que é multicolinearidade, como identificar e como lidar?
Suposições da regressão linear – #5: Independência dos resíduos
Outra importante suposição da regressão linear é que os resíduos devem ser independentes entre si. Essa regra geral serve como uma “verificação final” para garantir que não há padrões ocultos ou efeitos não modelados nos dados.
Se os resíduos se correlacionarem entre si — como pode ocorrer com dados temporais ou espaciais —, os resultados da regressão podem ser distorcidos. Por isso, é fundamental inspecionar gráficos de resíduos e, se necessário, aplicar técnicas específicas para corrigir esse problema.
Suposições da regressão linear – #6: Ausência de outliers influentes
Embora livros-textos nem sempre formalizem o caso a seguir como uma suposição, existe uma expectativa de que outliers severos não distorçam as estimativas do modelo. Ou seja, valores extremos que influenciem desproporcionalmente o ajuste podem comprometer a validade do modelo.
Portanto, é essencial realizar diagnósticos para identificar e lidar com esses pontos. Em alguns casos, pode ser necessário removê-los ou aplicar transformações para atenuar seu impacto.
Conclusão
Pronto! Agora você já sabe quais são os pressupostos de uma regressão linear simples ou múltipla. Aproveite e se inscreva em nosso canal do YouTube para ficar por dentro de todas as nossas novidades!
Se você precisa aprender análise de dados, então faça parte da Psicometria Online Academy, a maior formação de pesquisadores quantitativos da América Latina. Conheça toda nossa estrutura aqui e nunca mais passe trabalho sozinho(a).
Como citar este post
França, A. (2022, 29 de abril). Suposições da regressão linear. Blog Psicometria Online. https://www.blog.psicometriaonline.com.br/suposicoes-da-regressao-linear/