O seu Blog de Psicometria

Tenha acesso à nossa enciclopédia virtual de conhecimento em Psicometria e Análise de Dados

Junte-se a mais de 22.300 membros e receba conteúdos exclusivos e com prioridade

Compartilhe nas Redes Sociais

Como fazer análise de correlação no R?

Marcos Lima

out 31, 2022

Neste post, você aprenderá a executar uma análise de correlação no software R. A análise de correlação é uma técnica estatística que pesquisadores comumente usam, pois ela permite avaliar se duas variáveis estão relacionadas entre si. Nesse sentido, a correlação mede o relacionamento linear entre variáveis.

Em um primeiro momento, o R pode parecer desafiador ao usuário iniciante. No entanto, uma vez compreendida a estrutura básica da linguagem, o usuário conta com uma infinidade de soluções personalizáveis às suas necessidades. Importante, quem faz parte da Psicometria Online Academy já sabe que o R é extremamente útil e, se surgir alguma dúvida, pode contar com suporte exclusivo para executar suas análises!

Entretanto, para você que ainda não faz parte da nossa formação vamos deixar aqui um tutorial passo a passo de como executar uma análise de correlação no R. Vamos lá!

Instalando e ativando o pacote psych

Quando você adquire um automóvel, pode customizá-lo incorporando itens que não vêm de fábrica, como câmera de ré, sensores de estacionamento e sistema de navegação GPS. Da mesma forma, o R possui recursos adicionais que podem incrementar suas funcionalidades. A esses recursos damos o nome de pacotes. A grande diferença é que, no R, a instalação de pacotes adicionais, assim como o software original, é gratuita!

Neste tutorial, o primeiro passo é instalar e ativar o pacote psych. Você pode fazer isso utilizando os comandos descritos a seguir:

# instalando o pacote
install.packages("psych")

# ativando o pacote
library(psych)

O código da linha 2 deve ser executado uma única vez, pois ele é usado para instalar o pacote em seu computador. Já o código da linha 5 deve ser executado sempre que você iniciar uma nova sessão no R, uma vez que ele informa ao R que você quer deixar os recursos desse pacote ativos e prontos para o uso. Além disso, as linhas 1 e 4, que iniciam com o operador #, representam comentários do usuário e serão ignorados pelo R durante a execução do código.

Carregando o banco de dados

O segundo passo do tutorial é carregar seu banco de dados. Existem diversas maneiras de realizar esse procedimento. Se você está utilizando o RStudio, a mais simples delas é clicar em Import Dataset no painel Environment e escolher o formato do arquivo em que está salvo seu banco de dados (p.ex., Excel, SAS, SPSS, etc.). Em nosso caso, vamos ler um arquivo .csv, de modo que seguiremos o caminho Import Dataset > From Text (readr), conforme indicado na Figura 1.

janela do RStudio mostrando caminho para imprtar arquivo em formato csv.
Figura 1. Caminho para importar arquivo .csv.

Em nosso exemplo, nós usaremos o arquivo Big Five Personality Traits.csv, que vem disponível junto com a instalação do software JASP. Esse banco de dados contém 500 observações nos cinco grandes fatores de personalidade proposto pelo modelo do Big Five, a saber, neuroticismo, extroversão, abertura a novas experiências, agradabilidade e conscienciosidade (McCrae et al., 2011).

Para isso, selecionaremos o caminho até o arquivo, conforme mostrado na parte superior da Figura 2. Atribuíremos o arquivo lido a um objeto chamado dados, conforme indicado na parte inferior da Figura 2. Em seguida, clicaremos em Import.

janela do RStudio mostrando como importar arquivo em formato csv usando o Import Dataset.
Figura 2. Opções de importação dos dados no R.

Pronto! Com seu banco de dados carregado, é hora de colocar as mãos na massa!

Checando o banco de dados para análise de correlação no R

Para checar os nomes das variáveis que estão disponíveis em seu banco de dados, você pode utilizar a função head(), passando a ela o nome do objeto que contém o banco de dados.

# checando as primeiras linhas do banco de dados
head(dados)

Em nosso exemplo, o RStudio imprimirá no console todas as variáveis que fazem parte de nosso banco de dados, tal como indicado na Figura 3.

seis primeiras linhas dos dados lidos no R.
Figura 3. Primeiras linhas dos dados no R.

Em seguida, solicitaremos estatísticas descritivas dessas variáveis.

# solicitando estatísticas descritivas
descritivos <- describe(dados)
descritivos

O comando da linha 11 usa a função describe(), do pacote psych. Com esse comando, portanto, você já tem uma análise descritiva dos seus dados, incluindo medidas de tendência central e de medidas de dispersão (veja a Figura 4).

estatísticas descritivas das variáveis do Big Five.
Figura 4. Estatísticas descritivas do banco de dados do Big Five.

Realizando análise de correlação no R

Agora, vamos realizar a análise de correlação propriamente dita. Para isso, basta executar a função corr.test(), do pacote psych. Consequentemente, o resultado da função é passado para o objeto cor, pois isso facilitará a visualização dos resultados. Além disso, ao argumento x, passamos o nome do objeto contendo nossos dados.

# solicitando a análise de correlação
cor <- corr.test(x = dados, # Dados
                 use = "complete", # Como vamos lidar com missings
                 method = "pearson") # tipo de correlação

O argumento use indica como lidaremos com os dados ausentes no banco de dados. No caso, a opção “complete”, indica que utilizaremos apenas casos completos (isto é, que possuem respostas em todas as variáveis do banco de dados). Por outro lado, o argumento “pearson”, passado a method indica que queremos realizar a correlação de Pearson. Além disso, outras opções que você pode testar em seus próprios dados incluem os coeficientes de correlação de Spearman (method = “spearman”) e de Kendall (method = “kendall”).

Interpretando os resultados da análise de correlação no R

Em seguida, invocamos o objeto cor.

cor

Desse modo, obteremos uma matriz de correlação de seus dados, conforme apresentado na Figura 5.

matriz de correlações dos fatores do Big Five e valores de p.
Figura 5. Matriz de correlações geradas no R.

Com base na Figura 5, podemos notar que a correlação mais forte no banco de dados é entre neuroticismo e conscienciosidade, r = –0,37, p < 0,01, seguida de neuroticismo e extroversão, r = –0,35, p < 0,01, ambas com correlações negativas. Note que a saída apresentada contém uma matriz de correlações e uma segunda matriz de valores de p (probability values).

Solicitando intervalos de confiança para a correlação no R

O objeto cor possui vários atributos. Para ver quais atributos existem, basta digitar cor$, que o RStudio listará as opções disponíveis. A partir disso, você pode, por exemplo, querer solicitar os intervalos de confiança para os coeficientes de correlação. No código a seguir, envolvemos nosso pedido da correlação na função round(), que é nativa do R, passando a ela o argumento 2. Isso indica que queremos apenas duas casas decimais em nossa saída, o que torna os resultados mais fáceis de serem lidos.

round(cor$ci, 2)

O que produzirá os limites inferiores e superiores dos rs de Pearson (Figura 6).

correlações, intervalos de confiança de 95% e valores de p.
Figura 6. Intervalos de confiança para os coeficientes de correlação no R.

Por exemplo, anteriormente falamos sobre as duas correlações mais fortes. Em seguida, consideraremos seus respectivos intervalos de confiança. A correlação mais forte foi entre neuroticismo e conscienciosidade, r = –0,37, IC 95% [–0,44, –0,29], seguida pela correlação entre neuroticismo e extroversão, r = –0,35 [–0,42, –0,27].

Note que intervalos de confiança que não capturam o valor zero estão associados a valores de p menores que 0,05. Por outro lado, intervalos de confiança que estão associados a valores de p maiores que 0,05. Por exemplo, isso acontece quando consideramos a correlação entre extroversão e agradabilidade, r = 0,05 [–0,03, 0,14], p = 0,22. Desse modo, as duas formas de inferência – baseada em valor de p e em intervalo de confiança – levam a conclusões equivalentes.

Conclusão

A análise de correlação é uma técnica estatística usada para avaliar se duas variáveis estão relacionadas entre si. Neste post, você aprendeu como fazer análise de correlação no R. Agora basta reportar seus dados por meio de tabelas ou por meio de gráficos, por exemplo, usando o pacote ggplot2.

Quer aprender mais sobre R? Então veja a novidade que preparamos a seguir!

É com grande satisfação que a Psicometria Online anuncia o curso R para Iniciantes. O curso tem como objetivo abordar todos os tópicos essenciais do R, permitindo que você explore assuntos específicos sem ser prejudicado por dúvidas básicas. Se você trabalha com pesquisa científica e deseja aprender a utilizar o R, então o curso R para Iniciantes é para você.

Interessado em aprender análise de dados? Junte-se à Psicometria Online Academy: a maior formação de pesquisadores quantitativos da América Latina. Conheça nossa estrutura completa e nunca mais passe trabalho sozinho(a).

Referência

McCrae, R. R., Kurtz, J. E., Yagamata, S., & Terracciano, A. (2011). Internal consistency, retest reliability, and their implications for personality scale validity. Personality and Social Psychology Review, 15(1), 28–50. https://doi.org/10.1177/1088868310366253

Como citar este post

Lima. M. (2022, 31 de outubro). Como executar análise de correlação no R? Blog Psicometria Online. https://www.blog.psicometriaonline.com.br/analise-de-correlacao-no-r/

Bruno Figueiredo Damásio

Sou Psicólogo, mestre e doutor em Psicologia. Venho me dedicando à Psicometria desde 2007.

Fui professor e chefe do Departamento de Psicometria da UFRJ durante os anos de 2013 a 2020. Fui editor-chefe da revista Trends in Psychology, da Sociedade Brasileira de Psicologia (SBP) e Editor-Associado da Spanish Journal of Psychology, na sub-seção Psicometria e Métodos Quantitativos.

Tenho mais de 50 artigos publicados e mais de 5000 citações, nas melhores revistas nacionais e internacionais.

Em 2020, saí da UFRJ para montar a minha formação, a Psicometria Online Academy.

Meu foco é que você se torne um(a) pesquisador(a) de excelência. Clique aqui para conhecer a Academy.

Compartilhe sua opinião sobre este post

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Posts sugeridos

Como montar e organizar o banco de dados no SPSS?

Como fazer o cálculo de tamanho amostral no G*Power?

Como centralizar os dados no SPSS?

Conteúdo

Mais lidos

O que é correlação de Pearson?

O que é o teste de Shapiro-Wilk?

Teste t de Student

Qual é a diferença entre R e RStudio?

Postados recentemente

Como montar e organizar o banco de dados no SPSS?

O que é ensaio clínico randomizado?

Como fazer o cálculo de tamanho amostral no G*Power?

Qual é a diferença entre sensibilidade e especificidade?

Deseja se tornar completamente autônomo e independente na análise dos seus dados?

Junte-se a mais de 22.300 membros e receba conteúdos exclusivos e com prioridade

Categorias