A Regressão Linear Múltipla é um modelo de análise que usamos quando modelamos a relação linear entre uma variável de desfecho contínua e múltiplas variáveis preditoras que podem ser contínuas ou categóricas.
A principal diferença entre a Regressão Linear Múltipla e a Simples, é que na simples só usamos uma variável preditora. Você pode aprender mais sobre a regressão linear simples aqui nesta postagem no blog.
Quando usar Regressão Linear Múltipla?
Podemos usar a Regressão Linear Múltipla quando o objetivo da pesquisa envolve:
- Projetar o valor de uma variável de desfecho (também chamada de variável dependente, VD) através de um conjunto de outras variáveis preditoras (também chamadas de variáveis independentes, VIs);
- Investigar que variáveis se relacionam com uma variável de desfecho;
- Investigar qual conjunto de variáveis traz uma melhor explicação para a variável de resultado;
- Entender a relação entre uma variável de resultado e uma preditora, controlando pelo efeito de outras variáveis preditoras.
A partir dos tipos de uso, podemos pensar em alguns exemplos práticos:
- Projetar a nota de língua portuguesa em uma turma à partir da quantidade de exercícios de casa resolvidos, horas de estudo, número de faltas e quantidade de livros lidos no último ano;
- Descobrir qual variável mais impacta a nota de língua portuguesa: seriam os exercícios de casa, horas de estudo, número de faltas ou a quantidade de livros lidos no último bimestre? Sabendo a importância destas variáveis, podemos planejar uma intervenção;
- Queremos entender que variáveis tem impacto sobre a qualidade de vida de um país à partir de um censo com dezenas de variáveis;
- Entender se a quantidade horas de aula matemática é uma boa variável preditora para a nota da prova de matemática, quando também observamos se os alunos fazem os exercícios em sala de aula.
O que preciso saber antes de fazer a regressão?
Nós já falamos sobre os pressupostos da regressão aqui e aqui. Como este é um assunto muito importante, vale a pena relembrar que antes de fazer a Regressão Linear Múltipla, você deve conferir se os dados seguem estes pressupostos:
- Linearidade: a relação entre as variáveis deve ser linear.
- Homoscedasticidade (ou Homogeneidade de Variância): os termos de erro deve ter variância constante, independente dos valores das variáveis preditoras. Quebramos esse pressuposto quando as variáveis preditoras tem mais ou menos erro dependendo de seus valores.
- Independência de erros: Os erros nas variáveis preditoras não devem estar correlacionados.
- Não multicolinearidade: as variáveis preditoras não podem ser próximas de uma correlação perfeita.
- Baixa exogeneidade: os valores das variáveis preditoras não devem estar contaminados com erros de medida. Este pressuposto não é muito realístico para a Psicometria. Ainda assim, é importante conhecê-lo. Erros de medida podem levar estimativas inconsistentes e superestimação dos coeficientes de regressão.
Entendendo a fórmula da Regressão Linear Múltipla
Se você leu nossa postagem sobre regressão linear simples, você já deve saber que a fórmula da regressão nada mais é do que a equação que descreve uma reta:
Onde Y é a variável de interesse, a que queremos prever. X é nossa variável preditora e que está associado ao β, que dirá o quão inclinado está a reta, ou o quão influente é a variável preditora. Por sua vez, o α é o valor que descreve o intercepto: onde a linha está quando o valor de X é zero.
Na Regressão Linear Múltipla, a fórmula é bem parecida, só vamos acrescentar outras variáveis preditoras:
Na fórmula acima temos duas variáveis preditoras e seus betas. Dando continuidade a este modelo, podemos ter quantas variáveis preditoras quanto quisermos:
O que é a Regressão Linear Múltipla na prática?
Vamos entender o que é a regressão linear através de um exemplo prático. Para isso, vamos dar continuidade ao nosso exemplo da Regressão Linear Simples, onde analisamos se o escore de felicidade médio de um país tem relação com alguns indicadores.
No caso da regressão simples, analisamos se a felicidade tem relação com o Produto Interno Bruto. Indo além neste modelo, vamos acrescentar as variáveis “liberdade para fazer escolhas de vida” e “suporte social”.
Para termos uma base de comparação, em nosso modelo original, somente com o PIB, obtivemos R² de 0,63 e o PIB teve beta padronizado de 0,79. Os índices de ajuste do nosso novo modelo estão na tabela 1, a seguir.
Erro Padrão Residual | 0,558 (gl = 152) | |
R² Múltiplo | 0,753 | |
R² Ajustado | 0,749 | |
Estatística F | 154,9 (gl = 3 e 152) | p < 0,001 |
Como analisar as medidas de ajuste?
Podemos começar nossa análise checando se a regressão linear é um modelo diferente o suficiente do modelo nulo (que é a média da variável de interesse). O que nos dá esta informação é a estatística F. Se o valor de F for significativo, com p < 0,05, podemos dizer que a regressão linear é diferente do modelo nulo. No nosso exemplo, obtivemos valor de p menor do que 0,001.
Em um primeiro momento podemos pensar que o modelo ter um valor de p muito menor do que o necessário (0,001 << 0,05) é muito bom. Isto não é necessariamente verdade. O valor de p associado à estatística F apenas nos diz se o modelo é diferente do modelo nulo. Dito de outra forma, valores de p muito pequenos nos dizem que a chance dos modelos serem diferentes é grande. Entretanto, não diz o quão diferente eles são.
Avaliando a qualidade do modelo através do R²
Para avaliarmos a qualidade do modelo, podemos usar as medidas de R², que irá nos dizer quantos porcentos da variação dos dados pode ser explicada pelas variáveis preditoras. O R² do nosso modelo foi de 0,753. Isso significa que 75,3% da variação dos escores médios de felicidade pode ser explicada pelas variáveis preditoras, o que é excelente!
Apesar dos resultados impactantes, precisamos de cautela quando usamos o R² na regressão linear múltipla. O R² tem um viés: ele sempre aumenta conforme acrescentamos novas variáveis à regressão, ainda que estas variáveis sejam ruins enquanto preditoras. Desta maneira, é possível ter modelos com muitas variáveis ruins e um bom R². Para resolver este viés, existe uma outra estatística, o R² Ajustado, que leva em conta que estamos acrescentando novas variáveis ao modelo. Em nosso caso, o R² Ajustado é apenas ligeiramente menor que o R², 0,749 ou 74,9%, o que é um ótimo sinal!
O que é o Erro Padrão Residual?
Uma outra medida de ajuste presente é o Erro Padrão Residual. Ele indica o quão distante da linha de tendência da regressão estão os dados. Quanto menor o Erro Padrão Residual, melhor é nosso modelo. Porém, ele não é uma medida padronizada, seguindo o mesmo nível de medida da variável de interesse. Com isso, não há uma maneira padronizada de analisá-lo.
Outro ponto importante é que o R² é calculado à partir do Erro Padrão Residual. Portanto, ambas as medidas dão informações semelhantes.
Como saber se tenho boas variáveis preditoras?
Agora que sabemos que nosso modelo de regressão é adequado para os nossos dados, podemos voltar nossa atenção às variáveis preditoras. Da mesma maneira que fizemos ao analisar o modelo geral, a primeira coisa que vamos olhar são os valores de significância das variáveis, que também devem ser menores do que 0,05.
Estimativa | Estimativa padronizada | Erro Padrão | valor-t | valor-p | |
(Intercepto) | 2,05 | 0,00 | 0,20 | 10,223 | < 0,001 |
PIB | 1,28 | 0,46 | 0,17 | 7,44 | < 0,001 |
Liberdade | 1,94 | 0,25 | 0,35 | 5,54 | < 0,001 |
Suporte Social | 1,19 | 0,32 | 0,24 | 5,02 | < 0,001 |
Em nossos exemplo, todas as variáveis tem valor de p < 0,001. Todas são suficientemente diferentes de um modelo onde elas não estão inclusas. O valor da significância é derivado do valor-t, que é análogo à estatística F.
Da mesma maneira como fizemos para o ajuste do modelo, precisamos olhar o tamanho do impacto destas variáveis na variável de resultado. No caso das variáveis preditoras, existem duas medidas que podemos usar: o beta e o beta padronizado.
Como interpretar o valor do beta?
O beta da regressão, como discutimos na parte da fórmula, é o valor que determina o ângulo da linha da regressão. Dito de maneira mais direta, o valor do beta determina o quanto a variável preditora impacta na variável de resultado. Quanto maior o valor do módulo do beta (ignorando o sinal), mais influente ele é nos valores da variável de resultado.
Outra maneira de interpretar o beta é entendo que o aumento de uma unidade no valor da variável X1, gera o aumento do valor do beta1 na variável de resultado. No nosso exemplo o modelo de regressão estima que se aumentássemos uma unidade no valor do PIB, aumentaríamos 2,05 no escore de felicidade.
Quando usar o beta padronizado?
O beta da regressão sempre está na mesma unidade de medida da variável original (ex.: os escores de felicidade que vão de 1 a 5). Uma consequência é que pode ser difícil de identificar de maneira fácil o quão importante é aquela variável.
Para resolver este problema, podemos usar o beta padronizado. Ele é uma versão do beta que indica o quão forte é a associação entre a variável preditora e a de resultado. Quando o beta padronizado é 0, a relação entre as variáveis é fraca. Quando o beta é 1 ou -1, há uma relação forte entre as variáveis.
Note que betas negativos, padronizados ou não, indicam que o aumento da variável preditora implica na diminuição da variável de resultado.
Em nosso exemplo, todas as variáveis tem alguma importância, mas a variável mais influente para os escores médios de felicidade foi o PIB, seguido por suporte social e a liberdade de escolhas de vida.
Um ponto interessante para se notar, é que quando fizemos a regressão linear simples, o PIB tinha beta padronizado de 0,79. Agora, o beta padronizado é de 0,46.
Esta diminuição acontece pois há uma sobreposição entre o PIB, a liberdade de escolha e o suporte social. Apenas para fins de ilustração podemos pensar que países com maior PIB também tem maior suporte social. Desta maneira, uma parte do poder explicativo do PIB diminui quando acrescentamos o suporte social ao modelo.
Esta noção de que o poder de uma variável se altera quando acrescentamos outra ao modelo voltará quando falarmos de mediação e moderação.
Devo excluir variáveis não significativas ou fracas?
Você pode querer excluir variáveis por serem fracas ou com valor de p > 0,05. Mas não necessariamente esta é a melhor coisa a se fazer.
Se na sua pesquisa você tem um modelo teórico que está sendo avaliado à partir da regressão, é importante deixar as variáveis fracas e insignificantes dentro modelo. Isso demonstra que nem todas as suas hipóteses foram confirmadas, e deve ser discutido. Além de dar a maior transparência possível.
Se você estiver procurando um modelo que seja o melhor para prever determinada situação, excluir variáveis pode aumentar o poder preditivo. No caso de pesquisas científicas ainda é necessário manter os dois modelos quando possível, para maior transparência dos resultados.
Além da Regressão
Com este artigo, você deve ter uma boa ideia de como interpretar uma regressão linear múltipla. Acredito que isso te dará um grande poder de análise em diversas situações.
Agora, se quiser ir além, entender a regressão linear abre porta para diversos tipos de análises que tem a regressão linear como base e serão abordadas aqui no blog: mediação e moderação, Regressão Linear Multinível, Modelagem por Equações Estruturais, Análise Fatorial, entre outras. Há também algumas que já foram abordadas: Regressão Logística e de Poisson. Bons estudos!
Gostou desse conteúdo? Precisa aprender Análise de dados? Faça parte da Psicometria Online Academy: a maior formação de pesquisadores quantitativos da América Latina. Conheça toda nossa estrutura aqui e nunca mais passe trabalho sozinho(a).
Como citar este post
Damásio, B. (2021, 2 de março). O que é regressão linear múltipla? Blog Psicometria Online. https://www.blog.psicometriaonline.com.br/o-que-e-regressao-linear-multipla/
Respostas de 6
Gostei da aula
Obrigado, José!
Equipe Psicometria Online.
Olá Bruno Figueiredo. Espero que esteja bem.
Parabenizo-o pela explicação referente à regressão linear múltipla. De forma simples e didática e mostrando as entrelinhas facilitou a minha interpretação sobre a questão. Sugiro que continue com tal metodologia a fim de atingir os interessados nas questões estatísticas mas que ao mesmo tempo necessitam de um embasamento. Realmente, muito obrigado!
Oi, Frank. Que bom que o conteúdo te ajudou. Agradecemos o feedback!
Equipe Psicometria Online.
Já havia buscado outros blogs e vídeos tentando entender como analisar o valor de beta e só consegui entender aqui. Muito obrigada mesmo!
Oi, Ana Carla. Que bom que conseguimos te ajudar a entender a interpretar os coeficientes. Agradecemos o feedback!
Equipe Psicometria Online.