O seu Blog de Psicometria

Tenha acesso à nossa enciclopédia virtual de conhecimento em Psicometria e Análise de Dados

Junte-se a mais de 22.300 membros e receba conteúdos exclusivos e com prioridade

Compartilhe nas Redes Sociais

O que é análise de correspondência?

Bruno Damásio

jun 2, 2021

A Análise de Correspondência (Correspondence Analysis – CA) é uma técnica exploratória de simplificação da estrutura da variabilidade de dados multivariados que utiliza variáveis categóricas dispostas em tabelas de contingência, considerando medidas de correspondência entre as linhas e colunas da matriz de dados.

Assim, são construídos gráficos com os componentes principais das linhas e das colunas permitindo a visualização da relação entre os conjuntos, onde a proximidade dos pontos referentes à linha e a coluna indicam associação e o distanciamento, uma repulsão.

A análise responde à pergunta: qual ou quais são os perfis/agrupamentos gerados a partir da associação entre duas, ou mais variáveis categóricas (nominais e ordinais)?

Na figura seguinte apresento um exemplo de um gráfico de uma análise de correspondência gerado com dados sobre as características de alguns animais.

Tipos de Análise de Correspondência:

Análise de correspondência simples (AC) para duas variáveis categóricas.

Análise de correspondência múltipla (ACM) para mais de duas variáveis categóricas.

Ambas as análises podem ser realizadas no SPSS, mas tenho boas notícias para aqueles que não têm esse programa.

O JAMOVI (pacote estatístico gratuito e com interface amigável, que pode ser instalado a partir de https://www.jamovi.org) apresentou este ano seu pacote Snow Cluster que executa análises de correspondência. Por enquanto, recomendamos utilizar o JAMOVI só apara AC simples devido, pois a execução de ACM ainda apresenta vários erros neste programa.

Entendendo o cálculo da similaridade

Embora o cálculo da análise de correspondência seja relativamente complexo, vamos explicar a lógica por cima da conta da similaridade, a qual é base para obter os eixos que geram o gráfico.

Vamos a imaginar que temos duas variáveis categóricas:

  1. Grupo: A, B e C.
  2. Idade: Jovem, Adulto e Velho.

Com essas duas variáveis teríamos a seguinte tabela de contingência:

ABCTotal
Jovensn11n12n13L1
Adultosn21n22n23L2
Idososn31n32n33L3
TotalC1C2C3TOTAL

Cada “n” representa o número de sujeitos que apresentam ambas as categorias. Por exemplo, o n11 seria o número de pessoas jovens no grupo A, o n12, o número de pessoas jovens no grupo B, etc.

L1, L2 e L3, representam as somatórias de cada linha e C1, C2 e C3 representam as somatórias de cada coluna. Y finalmente temos um total.

Com essa informação podemos gerar os seguintes dados:

TABELA DO PERFIL DA LINHA:

Exemplo: se eu quero saber o perfil da linha n11 (isto é, % do n11 que representa da linha), o cálculo seria: n11/L1.

Esse calculo sera feito com todos os valores para obter a TABELA DO PERFIL DA LINHA e depois, realizando os mesmos procedimentos, teremos A TABELA DO PERFIL DA COLUNA:

Agora, ainda com os dados da tabela de contingência, calcularemos outros dois dados importantes:

Baseado no perfil da linha, no perfil da coluna, na média do perfil da linha e na média do perfil da coluna… se gera o valor mais importante: SIMILARIDADE (d2), o qual é uma medida de distância.

Por exemplo: Se eu quero calcular a similaridade entre n11 e n21:

O cálculo seria:

Como calculamos valores para linhas e colunas separadamente, aqui também teríamos valores de similaridade da coluna e valores de similaridade da linha.

Quando o d2 é pequeno, significa que às duas categorias contribuem o mesmo tanto, ergo, elas são próximas.

Esses dados serão computados para cada valor de linha e coluna gerando coordenadas de x e y.

Com base nas similaridades se gera uma tabela para cada variável com as dimensões correspondentes.

Por exemplo, com a variável grupo teríamos (os números foram colocados só para exemplificar os dados):

E uma tabela similar teríamos com a variável idade.

Os dados que devemos reportar são: o gráfico da análise de contingência e na legenda de cada eixo colocar a inercia e o eigenvalue.

Lembra que este é um exemplo utilizando só dois variáveis, imagina como seria o cálculo para uma análise de correspondência de mais de duas variáveis.

Importante lembrar:

A análise de correspondência te informa as associações dos dados testados. Por isso, as distâncias entre gráficos derivados de dados diferentes não podem ser comparadas.

Conclusão

Se você que aprofundar mais neste cálculo, recomendo entrar aqui.

Gostou desse conteúdo? Precisa aprender Análise de dados? Faça parte da Psicometria Online Academy: a maior formação de pesquisadores quantitativos da América Latina. Conheça toda nossa estrutura aqui e nunca mais passe trabalho sozinho(a).

Referências

Infantosi, A. F. C., Costa, J. C. D. G. D., & Almeida, R. M. V. R. D. (2014). Análise de correspondência: Bases teóricas na interpretação de dados categóricos em Ciências da Saúde. Cadernos de Saúde Pública30, 473-486. https://www.scielo.br/j/csp/a/JGtssLPzqZ7yfQhT8cBQN3j/?format=pdf&lang=pt

Como citar este post

Damásio, B. (2021, 2 de junho). O que é análise de correspondência? Blog Psicometria Online. https://www.blog.psicometriaonline.com.br/analise-de-correspondencia/

Bruno Figueiredo Damásio

Sou Psicólogo, mestre e doutor em Psicologia. Venho me dedicando à Psicometria desde 2007.

 

Fui professor e chefe do Departamento de Psicometria da UFRJ durante os anos de 2013 a 2020. Fui editor-chefe da revista Trends in Psychology, da Sociedade Brasileira de Psicologia (SBP) e Editor-Associado da Spanish Journal of Psychology, na sub-seção Psicometria e Métodos Quantitativos.

 

Tenho mais de 50 artigos publicados e mais de 5000 citações, nas melhores revistas nacionais e internacionais.

Compartilhe sua opinião sobre este post

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Posts sugeridos

Qual é a diferença entre covariância e correlação?

Diferenças entre modelos lineares e modelos lineares generalizados (GLMs)

O que são médias marginais?

Conteúdo

Mais lidos

O que é correlação de Pearson?

Teste t de Student

O que é o teste de Shapiro-Wilk?

O que é regressão linear múltipla?

Postados recentemente

Como realizar o teste de Shapiro-Wilk no JASP?

Bolsas de mestrado e de doutorado: como conseguir?

Dicas de como melhorar a sua escrita científica

O que é e como funciona a revisão por pares (peer review)?

Deseja se tornar completamente autônomo e independente na análise dos seus dados?

Junte-se a mais de 22.300 membros e receba conteúdos exclusivos e com prioridade

Categorias