O seu Blog de Psicometria

Tenha acesso à nossa enciclopédia virtual de conhecimento em Psicometria e Análise de Dados

Junte-se a mais de 22.300 membros e receba conteúdos exclusivos e com prioridade

Compartilhe nas Redes Sociais

O que é regressão logística?

Bruno Damásio

fev 12, 2021

A regressão logísitica é um método usado para prever uma variável de resultado que seja categórica a partir de variáveis preditoras categóricas ou contínuas. As variáveis de resultado também costumam ser chamadas de dependentes e as preditoras de independentes. O processo de prever uma categoria específica pode ser chamado de classificação.

As variáveis de resultado categóricas são aquelas cujos valores são categorias distintas, como a cor dos olhos, se uma pessoa é do sexo masculino, feminino ou outro, ou até se uma pessoa tem determinado diagnóstico ou não. Ou seja, estas variáveis não podem ser expressadas de maneira numérica.

Tipos de regressão logística

Dependendo da variável de resultado, a regressão logística pode ser classificada de duas formas: Regressão Logística Binária, quando estamos prevendo uma variável com duas categorias, como “sim” ou “não”, e Regressão Logística Politômica, quando a variável de resultado tem mais do que duas categorias, como diferentes níveis educacionais.

De maneira mais detalhada, na regressão logística, tentamos encontrar a probabilidade de Y acontecer (a variável de resultado), P(Y), dado um conjunto de valores conhecidos, X1, X2, …, Xn. O que pode ser formalizado da seguinte maneira:

p(X) = eβ0 + β1X / 1+eβ0+β1X

Qual é a diferença entre uma Regressão Linear e uma Regressão Logística?

Aqueles já familiarizados com a regressão linear podem reparar que sua fórmula está presente na regressão logística. A regressão logística é uma transformação da regressão linear em uma distribuição logística.

É necessário fazer isso, e não usar a regressão linear para prever categorias, uma vez que a regressão linear tem como pressuposto que a relação entre a variável de resultado e as variáveis preditoras segue uma distribuição linear, o que não acontece quando temos uma variável de resultado categórica.

Como analisar o modelo de Regressão Logística?

Ao analisar os resultados da regressão logística, podemos avaliar o quão bem o modelo logístico se adequa aos dados através do valor de um valor de pseudo R2, que indica a relação entre a variável de resultado e cada um dos preditores, com valores que variam de -1 a 1.

Os valores próximos de zero indicam que não há relação. Valores positivos indicam que o aumento dos valores das variáveis preditoras está associado a um aumento dos valores da variável de resultado. Valores negativos indicam que o aumento dos valores das variáveis preditores está associado a uma diminuição dos valores da variável de resultado.

Quanto mais próximo de 1 ou -1, maior é a força desta relação.

Também existem outros critérios de avaliação do modelo, como o log-likelihood, o desvio (-2LL) e os critérios AIC e BIC. Também existem diferentes formas de calcular o pseudo R2, como o de McFadden e CoxSnell, cada qual com vantagens e desvantagens.

Quando usar a Regressão Logística

Existem muitas situações de pesquisa, no entanto, quando a variável dependente de interesse é categórica (por exemplo, ganhar/perder; falhar/passar; morto/vivo).

Podemos usar a Regressão Logística quando:

  • Existem apenas dois resultados possíveis para a resposta categórica. Como no exemplo acima – fumam x não fumam
  • As variáveis ​​de resposta incluem três ou mais variáveis, que não estarão em nenhuma ordem. Por exemplo, prever se os clientes de um determinado bar preferem um determinado tipo de cerveja – ale, ipa ou weiss.
  • Há uma ordem que segue o seguinte. Um exemplo é avaliar um restaurante em uma escala de 1 a 5.

No exemplo a seguir, tentamos identificar se uma pessoa é filho único ou não, observando o interesse por música, filmes, animais de estimação, por socializar e sua idade. Utilizamos o R2 de Tjur, que obteve valor de 0,014, o que indica que este modelo não é muito eficiente em prever a variável de resultado à partir destas variáveis preditoras.

 Filho único
PredictorsRazão de chancesICp
(Intercept)0.160.03 – 1.000.049
Music1.090.87 – 1.350.452
Movies1.140.92 – 1.400.220
Pets0.970.88 – 1.060.499
Socializing1.020.89 – 1.160.808
Age1.101.04 – 1.170.001
Observations983
R2 Tjur0.014

Mas além de avaliar o modelo como um todo, podemos avaliar cada preditor individualmente. A primeira coisa que podemos fazer é observar os valores de significância, p. Valores menores que 0,05 indicam que aquela variável apresenta impacto estatisticamente significativo.

No nosso exemplo, isto é verdadeiro apenas para a variável idade. No entanto, isso apenas nos diz que a idade é uma preditora da variável de resultado, mas não nos diz o quão bem ela é capaz de prever. Para isso, podemos usar estatísticas como a razão de chances.

Entendendo a Razão de chances (odds ratio)

A razão de chances (ou odds ratio) é a chance de um evento acontecer divido pela chance de um evento não acontecer. No exemplo, é a chance de ser filho único divido pela chance de não ser filho único.

A razão de chances associada à cada preditor indica que, aumentando uma unidade nos valores da variável preditora, aumenta-se a razão de chance associada ao evento predito. No exemplo, há um pequeno aumento da chance de um indivíduo não ser filho único conforme a idade aumenta (1,10 vezes maior para cada aumento de uma unidade em idade).

Gostou desse conteúdo? Precisa aprender Análise de dados? Faça parte da Psicometria Online Academy: a maior formação de pesquisadores quantitativos da América Latina. Conheça toda nossa estrutura aqui e nunca mais passe trabalho sozinho(a).

Como citar este post

Damásio, B. (2021, 12 de fevereiro). O que é regressão logística? Blog Psicometria Online. https://www.blog.psicometriaonline.com.br/o-que-e-regressao-logistica/

Bruno Figueiredo Damásio

Sou Psicólogo, mestre e doutor em Psicologia. Venho me dedicando à Psicometria desde 2007.

 

Fui professor e chefe do Departamento de Psicometria da UFRJ durante os anos de 2013 a 2020. Fui editor-chefe da revista Trends in Psychology, da Sociedade Brasileira de Psicologia (SBP) e Editor-Associado da Spanish Journal of Psychology, na sub-seção Psicometria e Métodos Quantitativos.

 

Tenho mais de 50 artigos publicados e mais de 5000 citações, nas melhores revistas nacionais e internacionais.

Compartilhe sua opinião sobre este post

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Posts sugeridos

Qual é a diferença entre covariância e correlação?

O que são médias marginais?

Diferença entre as regressões logísticas: binária, ordinal e multinomial

Conteúdo

Mais lidos

O que é correlação de Pearson?

Teste t de Student

O que é o teste de Shapiro-Wilk?

O que é regressão linear múltipla?

Postados recentemente

Como escrever uma revisão sistemática? A declaração PRISMA

Como definir a ordem de autoria do artigo científico?

Como realizar o teste de Shapiro-Wilk no JASP?

Bolsas de mestrado e de doutorado: como conseguir?

Deseja se tornar completamente autônomo e independente na análise dos seus dados?

Junte-se a mais de 22.300 membros e receba conteúdos exclusivos e com prioridade

Categorias