Muito se fala de como realizar a análise de regressão linear, mas um assunto pouco abordado são os pressupostos ou suposições que devemos ter para realizar esta análise. Será que para regressão linear nossos dados devem seguir a tendência de normalidade?
O modelo de regressão linear baseia-se em várias suposições. Vamos dar uma olhada em cada uma delas.
Normalidade. A regressão linear simples ou múltipla depende de uma suposição de normalidade especifica. Assume que os resíduos são normalmente distribuídos. Na verdade, não há problema se os preditores X e o resultado Y não forem normais, desde que os resíduos sejam normalmente distribuidos.
Linearidade. Uma suposição bastante fundamental do modelo de regressão linear é que a relação entre X e Y é realmente linear! Independentemente de ser uma regressão simples ou múltipla, assumimos que as relações envolvidas são lineares. Homogeneidade da variância. Estritamente falando, o modelo de regressão assume que cada resíduo “i é gerado a partir de uma distribuição normal com média 0, e (mais importante para os propósitos atuais) com um desvio padrão que é o mesmo para cada resíduo.
Na prática, é impossível testar a suposição de que cada resíduo é identicamente distribuído. Em vez disso, o que nos importa é que o desvio padrão do resíduo seja o mesmo para todos os valores de ^Y e, se estivermos sendo especialmente paranóicos, todos os valores de todos os preditores X no modelo.
Preditores não correlacionados. A ideia aqui é que, em um modelo de regressão múltipla, você não deseja que seus preditores sejam muito fortemente correlacionados entre si. Isso não é “tecnicamente” uma suposição do modelo de regressão, mas na prática é necessário. Preditores que são muito fortemente correlacionados uns com os outros (referidos como “colinearidade”) podem causar problemas ao avaliar o modelo.
Os resíduos são independentes uns dos outros. Esta é realmente apenas uma suposição de “pegar tudo”, no sentido de que “não há mais nada engraçado acontecendo nos resíduos”. Se houver algo estranho (por exemplo, todos os resíduos dependem muito de alguma outra variável não medida) acontecendo, isso pode estragar as coisas.
Sem outliers “ruins”. Novamente, não é realmente uma suposição técnica do modelo (ou melhor, é meio que implícita por todas as outras), mas há uma suposição implícita de que seu modelo de regressão não está sendo muito influenciado por um ou dois pontos de dados anômalos porque isso levanta questões sobre a adequação do modelo e a confiabilidade dos dados em alguns casos.
Conclusão
Pronto! Agora você já sabe quais pressupostos devem ser atendidos para realizar uma análise de regressão linear simples ou múltipla!
Gostou desse conteúdo? Precisa aprender Análise de dados? Faça parte da Psicometria Online Academy: a maior formação de pesquisadores quantitativos da América Latina. Conheça toda nossa estrutura aqui e nunca mais passe trabalho sozinho(a).
Como citar este post
França, A. (2022, 29 de abril). Suposições da regressão linear. Blog Psicometria Online. https://www.blog.psicometriaonline.com.br/suposicoes-da-regressao-linear/