A regressão logísitica é um método usado para prever uma variável de resultado que seja categórica a partir de variáveis preditoras categóricas ou contínuas. As variáveis de resultado também costumam ser chamadas de dependentes e as preditoras de independentes. O processo de prever uma categoria específica pode ser chamado de classificação.
As variáveis de resultado categóricas são aquelas cujos valores são categorias distintas, como a cor dos olhos, se uma pessoa é do sexo masculino, feminino ou outro, ou até se uma pessoa tem determinado diagnóstico ou não. Ou seja, estas variáveis não podem ser expressadas de maneira numérica.
Tipos de regressão logística
Dependendo da variável de resultado, a regressão logística pode ser classificada de duas formas: Regressão Logística Binária, quando estamos prevendo uma variável com duas categorias, como “sim” ou “não”, e Regressão Logística Politômica, quando a variável de resultado tem mais do que duas categorias, como diferentes níveis educacionais.
De maneira mais detalhada, na regressão logística, tentamos encontrar a probabilidade de Y acontecer (a variável de resultado), P(Y), dado um conjunto de valores conhecidos, X1, X2, …, Xn. O que pode ser formalizado da seguinte maneira:
p(X) = eβ0 + β1X / 1+eβ0+β1X
Qual é a diferença entre uma Regressão Linear e uma Regressão Logística?
Aqueles já familiarizados com a regressão linear podem reparar que sua fórmula está presente na regressão logística. A regressão logística é uma transformação da regressão linear em uma distribuição logística.
É necessário fazer isso, e não usar a regressão linear para prever categorias, uma vez que a regressão linear tem como pressuposto que a relação entre a variável de resultado e as variáveis preditoras segue uma distribuição linear, o que não acontece quando temos uma variável de resultado categórica.
Como analisar o modelo de Regressão Logística?
Ao analisar os resultados da regressão logística, podemos avaliar o quão bem o modelo logístico se adequa aos dados através do valor de um valor de pseudo R2, que indica a relação entre a variável de resultado e cada um dos preditores, com valores que variam de -1 a 1.
Os valores próximos de zero indicam que não há relação. Valores positivos indicam que o aumento dos valores das variáveis preditoras está associado a um aumento dos valores da variável de resultado. Valores negativos indicam que o aumento dos valores das variáveis preditores está associado a uma diminuição dos valores da variável de resultado.
Quanto mais próximo de 1 ou -1, maior é a força desta relação.
Também existem outros critérios de avaliação do modelo, como o log-likelihood, o desvio (-2LL) e os critérios AIC e BIC. Também existem diferentes formas de calcular o pseudo R2, como o de McFadden e CoxSnell, cada qual com vantagens e desvantagens.
Quando usar a Regressão Logística
Existem muitas situações de pesquisa, no entanto, quando a variável dependente de interesse é categórica (por exemplo, ganhar/perder; falhar/passar; morto/vivo).
Podemos usar a Regressão Logística quando:
- Existem apenas dois resultados possíveis para a resposta categórica. Como no exemplo acima – fumam x não fumam
- As variáveis de resposta incluem três ou mais variáveis, que não estarão em nenhuma ordem. Por exemplo, prever se os clientes de um determinado bar preferem um determinado tipo de cerveja – ale, ipa ou weiss.
- Há uma ordem que segue o seguinte. Um exemplo é avaliar um restaurante em uma escala de 1 a 5.
No exemplo a seguir, tentamos identificar se uma pessoa é filho único ou não, observando o interesse por música, filmes, animais de estimação, por socializar e sua idade. Utilizamos o R2 de Tjur, que obteve valor de 0,014, o que indica que este modelo não é muito eficiente em prever a variável de resultado à partir destas variáveis preditoras.
Filho único | |||
---|---|---|---|
Predictors | Razão de chances | IC | p |
(Intercept) | 0.16 | 0.03 – 1.00 | 0.049 |
Music | 1.09 | 0.87 – 1.35 | 0.452 |
Movies | 1.14 | 0.92 – 1.40 | 0.220 |
Pets | 0.97 | 0.88 – 1.06 | 0.499 |
Socializing | 1.02 | 0.89 – 1.16 | 0.808 |
Age | 1.10 | 1.04 – 1.17 | 0.001 |
Observations | 983 | ||
R2 Tjur | 0.014 |
Mas além de avaliar o modelo como um todo, podemos avaliar cada preditor individualmente. A primeira coisa que podemos fazer é observar os valores de significância, p. Valores menores que 0,05 indicam que aquela variável apresenta impacto estatisticamente significativo.
No nosso exemplo, isto é verdadeiro apenas para a variável idade. No entanto, isso apenas nos diz que a idade é uma preditora da variável de resultado, mas não nos diz o quão bem ela é capaz de prever. Para isso, podemos usar estatísticas como a razão de chances.
Entendendo a Razão de chances (odds ratio)
A razão de chances (ou odds ratio) é a chance de um evento acontecer divido pela chance de um evento não acontecer. No exemplo, é a chance de ser filho único divido pela chance de não ser filho único.
A razão de chances associada à cada preditor indica que, aumentando uma unidade nos valores da variável preditora, aumenta-se a razão de chance associada ao evento predito. No exemplo, há um pequeno aumento da chance de um indivíduo não ser filho único conforme a idade aumenta (1,10 vezes maior para cada aumento de uma unidade em idade).
Gostou desse conteúdo? Precisa aprender Análise de dados? Faça parte da Psicometria Online Academy: a maior formação de pesquisadores quantitativos da América Latina. Conheça toda nossa estrutura aqui e nunca mais passe trabalho sozinho(a).
Como citar este post
Damásio, B. (2021, 12 de fevereiro). O que é regressão logística? Blog Psicometria Online. https://www.blog.psicometriaonline.com.br/o-que-e-regressao-logistica/