A Análise de Correspondência (Correspondence Analysis – CA) é uma técnica exploratória de simplificação da estrutura da variabilidade de dados multivariados que utiliza variáveis categóricas dispostas em tabelas de contingência, considerando medidas de correspondência entre as linhas e colunas da matriz de dados.
Assim, são construídos gráficos com os componentes principais das linhas e das colunas permitindo a visualização da relação entre os conjuntos, onde a proximidade dos pontos referentes à linha e a coluna indicam associação e o distanciamento, uma repulsão.
A análise responde à pergunta: qual ou quais são os perfis/agrupamentos gerados a partir da associação entre duas, ou mais variáveis categóricas (nominais e ordinais)?
Na figura seguinte apresento um exemplo de um gráfico de uma análise de correspondência gerado com dados sobre as características de alguns animais.
Tipos de Análise de Correspondência:
Análise de correspondência simples (AC) para duas variáveis categóricas.
Análise de correspondência múltipla (ACM) para mais de duas variáveis categóricas.
Ambas as análises podem ser realizadas no SPSS, mas tenho boas notícias para aqueles que não têm esse programa.
O JAMOVI (pacote estatístico gratuito e com interface amigável, que pode ser instalado a partir de https://www.jamovi.org) apresentou este ano seu pacote Snow Cluster que executa análises de correspondência. Por enquanto, recomendamos utilizar o JAMOVI só apara AC simples devido, pois a execução de ACM ainda apresenta vários erros neste programa.
Entendendo o cálculo da similaridade
Embora o cálculo da análise de correspondência seja relativamente complexo, vamos explicar a lógica por cima da conta da similaridade, a qual é base para obter os eixos que geram o gráfico.
Vamos a imaginar que temos duas variáveis categóricas:
- Grupo: A, B e C.
- Idade: Jovem, Adulto e Velho.
Com essas duas variáveis teríamos a seguinte tabela de contingência:
A | B | C | Total | |
Jovens | n11 | n12 | n13 | L1 |
Adultos | n21 | n22 | n23 | L2 |
Idosos | n31 | n32 | n33 | L3 |
Total | C1 | C2 | C3 | TOTAL |
Cada “n” representa o número de sujeitos que apresentam ambas as categorias. Por exemplo, o n11 seria o número de pessoas jovens no grupo A, o n12, o número de pessoas jovens no grupo B, etc.
L1, L2 e L3, representam as somatórias de cada linha e C1, C2 e C3 representam as somatórias de cada coluna. Y finalmente temos um total.
Com essa informação podemos gerar os seguintes dados:
TABELA DO PERFIL DA LINHA:
Exemplo: se eu quero saber o perfil da linha n11 (isto é, % do n11 que representa da linha), o cálculo seria: n11/L1.
Esse calculo sera feito com todos os valores para obter a TABELA DO PERFIL DA LINHA e depois, realizando os mesmos procedimentos, teremos A TABELA DO PERFIL DA COLUNA:
Agora, ainda com os dados da tabela de contingência, calcularemos outros dois dados importantes:
Baseado no perfil da linha, no perfil da coluna, na média do perfil da linha e na média do perfil da coluna… se gera o valor mais importante: SIMILARIDADE (d2), o qual é uma medida de distância.
Por exemplo: Se eu quero calcular a similaridade entre n11 e n21:
O cálculo seria:
Como calculamos valores para linhas e colunas separadamente, aqui também teríamos valores de similaridade da coluna e valores de similaridade da linha.
Quando o d2 é pequeno, significa que às duas categorias contribuem o mesmo tanto, ergo, elas são próximas.
Esses dados serão computados para cada valor de linha e coluna gerando coordenadas de x e y.
Com base nas similaridades se gera uma tabela para cada variável com as dimensões correspondentes.
Por exemplo, com a variável grupo teríamos (os números foram colocados só para exemplificar os dados):
E uma tabela similar teríamos com a variável idade.
Os dados que devemos reportar são: o gráfico da análise de contingência e na legenda de cada eixo colocar a inercia e o eigenvalue.
Lembra que este é um exemplo utilizando só dois variáveis, imagina como seria o cálculo para uma análise de correspondência de mais de duas variáveis.
Importante lembrar:
A análise de correspondência te informa as associações dos dados testados. Por isso, as distâncias entre gráficos derivados de dados diferentes não podem ser comparadas.
Conclusão
Se você que aprofundar mais neste cálculo, recomendo entrar aqui.
Gostou desse conteúdo? Precisa aprender Análise de dados? Faça parte da Psicometria Online Academy: a maior formação de pesquisadores quantitativos da América Latina. Conheça toda nossa estrutura aqui e nunca mais passe trabalho sozinho(a).
Referências
Infantosi, A. F. C., Costa, J. C. D. G. D., & Almeida, R. M. V. R. D. (2014). Análise de correspondência: Bases teóricas na interpretação de dados categóricos em Ciências da Saúde. Cadernos de Saúde Pública, 30, 473-486. https://www.scielo.br/j/csp/a/JGtssLPzqZ7yfQhT8cBQN3j/?format=pdf&lang=pt
Como citar este post
Damásio, B. (2021, 2 de junho). O que é análise de correspondência? Blog Psicometria Online. https://www.blog.psicometriaonline.com.br/analise-de-correspondencia/