A regressão logística é uma ferramenta estatística essencial que permite analisar e modelar a relação entre uma variável dependente binária e uma ou mais variáveis independentes.
Em contraste com a regressão linear, onde a saída é contínua e pode assumir qualquer valor real, a regressão logística é usada quando a variável de saída é categórica e, particularmente, quando existem apenas duas categorias possíveis.
Por que “logística”?
O nome “logística” provém da função logística, utilizada para modelar a probabilidade da variável de saída pertencer a uma das duas categorias.
Essa função transforma um intervalo de valores de entrada, que varia de menos infinito a mais infinito, para uma saída que varia entre 0 e 1 – um intervalo que é interpretável como uma probabilidade.
Como funciona a regressão logística?
A ideia central da regressão logística é encontrar a linha (ou plano em múltiplas dimensões) que melhor separa as duas classes de saída.
Esta “linha de decisão” é determinada usando os dados de entrada (as variáveis independentes) e observando como eles se relacionam com a saída desejada.
Uma vez que o modelo é treinado, ele pode estimar a probabilidade da variável dependente cair em uma das duas categorias.
Se essa probabilidade for maior que um limiar (geralmente 0,5), o modelo prediz que a saída pertence à categoria 1; caso contrário, pertence à categoria 0.
O que é pseudo R²?
Quando falamos de regressão linear, um dos indicadores mais reconhecidos da qualidade do ajuste do modelo é o R², ou coeficiente de determinação.
Este valor quantifica o quanto da variação na variável dependente é explicado pelo modelo. Contudo, na regressão logística, devido à sua natureza probabilística, o tradicional R² não é aplicável.
Surge então a necessidade de uma métrica alternativa: o Pseudo R².
O Pseudo R² é uma tentativa de replicar a ideia do R² para a regressão logística. Ele fornece uma noção da proporção da variabilidade na resposta que é explicada pelo modelo.
Importante ressaltar que existem diversas formas de calcular o Pseudo R² (como Cox & Snell e Nagelkerke). Explicamos essas diferentes formas a seguir.
Diferentes formas de calcular o pseudo R²?
Pseudo R² de Cox & Snell: Baseia-se na log-verossimilhança máxima para o modelo completo. Ele nunca alcança o valor máximo de 1, o que pode ser considerado uma desvantagem.
Pseudo R² de Nagelkerke: É uma versão ajustada do Cox & Snell, escalonada para ter um intervalo máximo de 0 a 1.
Pseudo R² de McFadden: É talvez o mais conhecido. Calcula-se como a razão entre a log-verossimilhança do modelo nulo (sem preditores) e a log-verossimilhança do modelo proposto. Valores próximos a 0 indicam que o modelo não melhora a previsão em comparação com o modelo nulo.
Pseudo R² de Tjur: Pode ser o mais desconhecido dentre os “pseudo R²”, o Tjur é calculado como o valor absoluto da diferença entre o valor médio previsto para todos os casos com zero e o valor médio previsto para todos os casos com um.
Valores próximos a um indicam clara separação entre os valores previstos para casos com zeros e casos com uns. Ao contrário dos outros índices pseudo R2, o R2 de Tjur não é relativo ao modelo nulo.
Embora muitos pesquisadores optem por pseudo R²s mais tradicionais, como McFadden ou Nagelkerke, Tjur’s R² oferece uma interpretação direta: representa a diferença média nas probabilidades previstas entre as duas categorias.
Afinal, em um modelo de regressão logística bem ajustado, gostaríamos que as probabilidades previstas para a categoria 1 fossem significativamente diferentes das da categoria 0. Tjur’s R² captura essa diferença de forma direta e compreensível.
O pseudo R² de Tjur já faz parte dos resultados da regressão logística quando executada por meio do software JASP que utilizamos na Academy.
Como interpretar o pseudo R²?
Não é R²: Enquanto em regressões lineares um R² de 0,8 ou 0,9 é frequentemente visto como excelente, na regressão logística, um Pseudo R² nessas faixas pode ser muito raro.
Não existe um valor “ótimo” ou absoluto: Para a interpretação do Pseudo R² pode-se adotar uma perspectiva de que valores próximos de zero indicam pouca diferença entre o modelo básico (sem variáveis independentes) e o modelo calculado.
Por outro lado, valores mais próximos de um denotam uma maior discrepância entre o modelo base e o sugerido pelo estudo.
Em termos claros, um pseudo R² de zero mostra que as variáveis escolhidas não trazem clareza adicional à variação da variável alvo.
Enquanto um pseudo R² de 1 insinua que essas variáveis traçam com precisão a flutuação de Y. Vale ressaltar que é apropriado ser mais flexível ao avaliar o modelo logístico em comparação ao linear quando se trata da variância explicada pelo R².
Vale dizer o pesquisador deve analisar o modelo de forma global, por exemplo, checar a tabela de classificação (classification table). Essa saída é interessante pois fornece uma medida da capacidade preditiva do modelo.
Para saber mais sobre a regressão logística, veja esse nosso outro post que te ensina, de modo prático, como executar uma regressão logística utilizando um software gratuito de análise de dados.
Conclusão
Esperamos que este post tenha ajudado você a entender melhor esses conceitos e como aplicá-los na prática.
Aproveite e inscreva-se no canal e aprimore suas habilidades em análise de dados!
Gostou desse conteúdo? Precisa aprender Análise de dados? Faça parte da Psicometria Online Academy: a maior formação de pesquisadores quantitativos da América Latina. Conheça toda nossa estrutura aqui e nunca mais passe trabalho sozinho(a).
Como citar este post
França, A. (2023, 13 de agosto). Regressão logística: Pseudo R². Blog Psicometria Online. https://www.blog.psicometriaonline.com.br/regressao-logistica-pseudo-r2/
Uma resposta
Muito interessante a apresentação das ideias.