O seu Blog de Psicometria

Tenha acesso à nossa enciclopédia virtual de conhecimento em Psicometria e Análise de Dados

Junte-se a mais de 22.300 membros e receba conteúdos exclusivos e com prioridade

Compartilhe nas Redes Sociais

O que é intervalo de confiança?

Marcos Lima

dez 18, 2024

Neste post, exploraremos um dos conceitos mais fundamentais da estatística frequentista: o intervalo de confiança. Para facilitar a compreensão, começaremos com um exemplo simples, que servirá como base ao longo do texto. Em seguida, introduziremos o que é um intervalo de confiança e analisaremos, em detalhes, o significado de sua definição.

Além disso, esclareceremos algumas confusões comuns, como a diferença entre confiança no intervalo e confiança no procedimento, as implicações antes e após a coleta de dados e as interpretações equivocadas de um intervalo de confiança. Nós também abordaremos o conceito de margem de erro, a fórmula para calcular o intervalo de confiança da média, a chamada dança dos intervalos de confiança e dois fatores que influenciam a margem de erro: o nível de confiança e o tamanho da amostra.

banner da Psicometria Online Academy.

Introdução

Antes de mais nada, é relevante uma breve revisão de metodologia científica. Comumente, selecionamos uma amostra de uma população estatística e coletamos dados dessa amostra. Para simplificar, imagine que nossa população de interesse seja composta pelos habitantes de Lagoa Verde, um município fictício. Selecionamos aleatoriamente 10 habitantes e medimos a altura de cada um deles (Figura 1).

exemplo de dados de altura de Lagoa Verde.
Figura 1. Alturas de 10 habitantes de Lagoa Verde.

Aqui, a média amostral de altura foi de 151,02 cm, com um desvio-padrão de 17,86 cm. Contudo, em pesquisas científicas, o objetivo pode não ser apenas compreender a amostra, mas também o de fazer inferências sobre a população de onde ela veio.

Aqui, entra a diferença entre estatísticas e parâmetros: as estatísticas são valores calculados a partir da amostra, enquanto os parâmetros são os valores reais da população que desejamos estimar. Geralmente, não temos acesso direto aos parâmetros, por isso usamos as estatísticas para inferir esses valores.

Em nosso exemplo, as estatísticas são a média e o desvio-padrão. Outros exemplos comuns, mas que não exploraremos neste post, incluem coeficientes de correlação, proporções e diferenças padronizadas entre médias (como o d de Cohen). Em todos os casos, usamos as estatísticas para obter insights sobre a população subjacente.

Para fins pedagógicos, assumiremos que os valores populacionais são conhecidos (mas lembre-se que geralmente eles são desconhecidos, na prática). Desse modo, nossos parâmetros são μ = 160 cm e σ = 15 cm. Ou seja, a altura média da população de Lagoa Verde é 160 cm, com um desvio-padrão de 15 cm (Figura 2).

Figura 2. Diferenciação entre grupo de referência, média e desvio-padrão amostral e populacional.

Essas informações serão úteis nas próximas seções.

Qual é a definição do intervalo de confiança?

O intervalo de confiança é um intervalo numérico construído ao redor da estimativa de um parâmetro. Ele utiliza um procedimento que, ao ser repetido em várias amostras hipotéticas, gera intervalos contendo o valor verdadeiro do parâmetro em X% dos casos.

Vamos dividir essa definição em partes. Primeiramente, o intervalo de confiança possui limites inferior e superior, calculados ao redor da estimativa de um parâmetro, θ-chapéu:

limites inferior e superior do intervalo de confiança.

No entanto, o parâmetro verdadeiro (θ) pode ou não estar contido no intervalo.

A Figura 3 mostra o intervalo de confiança de 95% para a média baseado na nossa amostra. Aqui, o intervalo é fixo, ou seja, quando aplicamos a fórmula aos mesmos dados, o resultado será sempre o mesmo.

exemplo de intervalo de confiança de 95%.
Figura 3. Exemplo de intervalo de confiança de 95%.

Entretanto, o procedimento usado para construir o intervalo é aleatório.

Por exemplo, suponha que tivéssemos selecionado outras quatro amostras aleatórias de Lagoa Verde, cada uma com 10 habitantes, e que tivéssemos mensurado a altura de cada habitante. A Figura 4 apresenta nossa amostra original (Amostra 1) e as quatro novas amostras (Amostras 2 a 5).

exemplos de amostras repetidas.
Figura 4. Exemplos de cinco amostras de alturas de Lagoa Verde.

Cada amostra possui intervalos de confiança diferentes. Isso ocorre porque os dados amostrais mudam. Contudo, dentro de cada amostra, o intervalo de confiança é fixo.

Em resumo, o intervalo de confiança reflete uma estimativa com base em dados amostrais, mas é o processo de repetição que assegura a frequência com que o parâmetro verdadeiro estará dentro dos intervalos gerados.

Confiança no intervalo ou confiança no procedimento?

Vamos prosseguir com nossa análise da definição do intervalo de confiança, reapresentada a seguir:

O intervalo de confiança é um intervalo numérico construído ao redor da estimativa de um parâmetro. Ele utiliza um procedimento que, ao ser repetido em várias amostras hipotéticas, gera intervalos contendo o valor verdadeiro do parâmetro em X% dos casos.

Anteriormente, destacamos que o intervalo é fixo, enquanto o procedimento é aleatório. Essa distinção é essencial, pois a confiança está no procedimento, e não no intervalo específico que calculamos.

Mas o que é esse procedimento? Em síntese, ele envolve: (a) coletar dados de uma amostra aleatória da população, (b) calcular um intervalo em torno da estimativa do parâmetro usando uma fórmula conhecida e (c) afirmar que:

afirmação na teoria do intervalo de confiança.

Em outras palavras, afirmamos que nosso intervalo captura o parâmetro. Note a sutileza: o intervalo é construído ao redor da estimativa do parâmetro. Logo, afirmar que a estimativa do parâmetro está dentro do intervalo é trivial, pois essa é uma constatação empírica. Por outro lado, afirmar que o parâmetro está dentro do intervalo é uma inferência baseada no procedimento e no nível de confiança adotado.

O nível de confiança consiste na frequência com que queremos estar corretos ao longo de repetições de nosso procedimento. Tipicamente, pesquisadores adotam o nível de confiança de 95%. Nesse contexto, a força do intervalo de confiança reside em sua interpretação frequentista, que garante a frequência esperada de sucesso na captura do valor verdadeiro do parâmetro em repetições hipotéticas.

A dança dos intervalos de confiança

O objetivo desta seção é deixar mais concreta a ideia de que a nossa confiança está no procedimento de construção do intervalo de confiança ao invés de nos intervalos de confiança individuais.

Na definição de intervalo de confiança, a confiança no procedimento pressupõe, ao menos teoricamente, sua repetição em diferentes conjuntos de dados hipotéticos. Com simulações, podemos visualizar o que ocorreria se repetíssemos esse processo várias vezes.

Suponha que realizemos amostragens repetidas de 10 habitantes de Lagoa Verde. Em cada amostra, usamos a média amostral como estimativa da média de altura populacional e construímos intervalos de confiança de 95% em torno dessa estimativa. Ao simular esse processo 1 milhão de vezes, obtemos uma visão clara do comportamento desses intervalos.

A Figura 5 apresenta os resultados das 20 primeiras simulações, destacando como os intervalos variam ao longo do eixo x. Esse fenômeno foi chamado por Cumming (2012) de “a dança dos intervalos de confiança“. Essa “dança” ocorre porque os intervalos dependem de amostras aleatórias, que diferem a cada repetição.

a dança dos intervalos.
Figura 5. A dança dos intervalos de confiança.

Em algumas ocasiões, o parâmetro populacional (representado pela linha pontilhada cinza) não estará contido no intervalo, como na Amostra 8.

Quantas vezes nossos intervalos não capturam a média populacional? O nível de confiança X% indica que falharemos, em média, em (100 – X)% das vezes. Em nosso exemplo, foi exatamente o que aconteceu: dos 1 milhão de intervalos simulados, 4,9933% não capturaram a altura média populacional.

Portanto, a confiança de 95% não está em um intervalo específico, mas na probabilidade do procedimento gerar intervalos que contenham o parâmetro verdadeiro em 95% dos casos.

Afirmações sobre o intervalo de confiança antes versus depois de coletar os dados

Qual é a probabilidade de lançarmos uma moeda honesta e obtermos cara? Segundo a teoria da probabilidade, p = 0,50. Mas e se já tivermos lançado a moeda? Qual é a probabilidade de termos obtido cara?

Embora a resposta intuitiva seja p = 0,50, isso está errado. Após o lançamento da moeda, a probabilidade de termos obtido cara é p = 0 ou p = 1, pois o resultado já ocorreu. Essa distinção filosófica é importante para diferenciar afirmações feitas antes e depois de coletarmos os dados.

De maneira similar, antes da coleta de dados, quando dizemos que um intervalo de confiança de 95% tem 95% de probabilidade de conter o parâmetro de interesse, estamos nos referindo a um intervalo aleatório (e.g., qualquer um dos obtidos na Figura 5).

No entanto, depois da coleta de dados, ao afirmar que o intervalo calculado tem 95% de probabilidade de conter o parâmetro, estamos falando de um intervalo fixo. Sendo assim, esta última afirmação não é válida na teoria frequentista, que nada diz sobre a probabilidade de um intervalo específico conter o parâmetro.

Jerzy Neyman, um dos pioneiros da estatística, argumenta que o intervalo de confiança deve ser entendido como um processo, e não em termos de cada conclusão individual. Em outras palavras, sua realização, em termos de confiança, se dará no longo prazo, quando a frequência de sucesso do método tenderá ao seu valor esperado.

Em resumo, a probabilidade de um intervalo conter o parâmetro aplica-se apenas antes da coleta dos dados. Após isso, temos apenas um intervalo fixo, e a interpretação probabilística deixa de ser apropriada. Para fazermos interpretações probabilísticas, precisamos usar intervalos de credibilidade, usados na estatística bayesiana.

Como calcular o intervalo de confiança para a média?

Em seguida, apresentamos a fórmula para calcular o intervalo de confiança para a média:

fórmula do intervalo de confiança

Onde M é a média amostral (i.e., nossa estimativa da média populacional), DP é o desvio-padrão amostral, N é o tamanho amostral e t corresponde ao valor t crítico associado ao nível de significância estabelecido pelo pesquisador, considerando-se N – 1 graus de liberdade.

Há uma relação direta entre nível de significância (α) e nível de confiança. Por exemplo, pesquisadores tipicamente estabelecem o nível de significância como 0,05, enquanto seu complemento é o nível de confiança, (1 – 0,05) = 0,95 (95%). Dividimos o valor de α por 2, no subscrito de t, pois queremos indicar testes bicaudais.

O sinal de mais ou menos (±) indica que a fórmula do intervalo de confiança possui dois resultados. Desse modo, podemos reexpressar a fórmula anterior da seguinte forma:

Lembrando, em nossa Amostra 1, obtivemos (M = 151,02 cm, DP = 17,86, N = 10). Com 9 graus de liberdade, o t crítico associado a um intervalo de confiança de 95% é de 2,26. Desse modo, podemos calcular os limites de nosso intervalo de confiança de 95%:

calculando intervalos de confiança de 95%.

Esse intervalo corresponde exatamente aos limites de confiança da Figura 3, que plotamos novamente a seguir (Figura 6):

exemplo da Amostra 1.
Figura 6. Reapresentação dos dados da Amostra 1.

Desse modo, podemos afirmar que a média populacional de altura em Lagoa Verde está entre 138,25 cm e 163,80 cm. Ao repetirmos esse procedimento em diferentes amostras no futuro, estaremos fazendo afirmações corretas, em média, em 95% das vezes. No entanto, não somos capazes de atribuir valores de probabilidade à nossa afirmação particular na Amostra 1.

Formas incorretas de interpretar um intervalo de confiança

Revisitemos Lagoa Verde. Suponha que, desde o princípio, nosso objetivo fosse investigar se a média de altura da população diferiria de 170 cm. Considere as seguintes interpretações baseadas nos resultados da Amostra 1 (e em Hoekstra et al., 2014):

  1. A probabilidade de a altura média da população ser menor que 170 cm é de, pelo menos, 95%;
  2. A probabilidade de a média verdadeira ser exatamente 170 cm é de 5%;
  3. A hipótese nula de que a média é 170 cm está provavelmente incorreta;
  4. A probabilidade de a média populacional de altura estar entre 138,25 cm e 163,80 cm é de 95%;
  5. Se conduzirmos estudos similares ao original repetidas vezes, então, em 95% do tempo, a média de alturas estará entre 138,25 cm e 163,80 cm;
  6. A probabilidade de sortearmos um morador aleatório de Lagoa Verde com altura entre 138,25 cm e 163,80 cm é de 95%.

Todas essas interpretações estão incorretas.

As afirmações 1 a 4 atribuem probabilidades a parâmetros ou a hipóteses, o que não é permitido pela estatística frequentista. Sendo assim, esses erros são análogos a interpretações falaciosas do valor de p como a probabilidade de as hipóteses nula ou alternativa serem verdadeiras.

Por outro lado, as afirmações 5 e 6 atribuem probabilidade a um intervalo fixo, o que também é incorreto. Lembre-se: a confiança é no procedimento que gera intervalos, não no intervalo específico.

A mensagem principal desta seção é de que a teoria estatística frequentista não nos permite usar intervalos de confiança para atribuir probabilidades a teorias, a hipóteses ou a intervalos específicos.

O que é margem de erro?

A margem de erro é a metade da amplitude do intervalo de confiança. Por exemplo, na Amostra 1, obtivemos IC 95% = [138,25, 163,80]; logo, a margem de erro é (163,80 – 138,25) / 2 = 12,775.

A margem de erro indica a variabilidade das estimativas em replicações sucessivas. De modo a compreendermos dois fatores que afetam seu tamanho, veremos novamente a fórmula do intervalo de confiança:

Primeiramente, o nível de confiança afeta a margem de erro, pois, quanto maior o nível de confiança, maior o valor do t crítico que multiplica o erro-padrão da estimativa. Por exemplo, em ICs 90%, 95% e 99%, tcríticos = 1,83, 2,26 e 3,25, respectivamente.

Assim, para aumentar a confiança no procedimento (ou seja, reduzir a chance de não capturar o parâmetro populacional), precisamos de intervalos mais amplos, como ilustrado na Figura 7.

diferentes níveis de confiança.
Figura 7. Intervalos de confiança de 90%, 95% e 99% para os dados da Amostra 1.

Além disso, a fórmula do intervalo de confiança inclui o erro-padrão que tende a zero conforme o tamanho amostral tende a infinito. Sendo assim, quanto maior o tamanho amostral, menor será a margem de erro. No entanto, como o erro-padrão envolve uma raiz quadrada, a relação entre margem de erro e tamanho amostral não é linear.

A Figura 8 mostra intervalos de confiança de 95% para amostras de 1.000 participantes, em vez de 10. Concluímos que agora as nossas estimativas são mais precisas, pois nossos intervalos de confiança são mais estreitos, mantendo-se o mesmo nível de confiança.

Figura 8. Intervalos de confiança de 95% para amostras com 1.000 observações cada.

Desse modo, com amostras maiores, a margem de erro diminui, resultando em estimativas mais precisas e em menor “dança” dos intervalos de confiança.

Conclusão

Neste post, você teve uma visão conceitual geral sobre o que é intervalo de confiança. Além disso, por meio de exemplos, mostramos como interpretar esses intervalos de maneira correta e dois fatores que afetam sua amplitude.

Se você precisa aprender análise de dados, então faça parte da Psicometria Online Academy, a maior formação de pesquisadores quantitativos da América Latina. Conheça toda nossa estrutura aqui e nunca mais passe trabalho sozinho(a).

Referências

Cumming, G. (2012). Understanding the new statistics: Effect sizes, confidence intervals, and meta-analysis. Routledge.

Hoekstra, R., Morey, R. D., Rouder, J. N., & Wagenmakers, E.-J. (2014). Robust misinterpretation of confidence intervals. Psychonomic Bulletin & Review, 21(5), 1157–1164. https://doi.org/10.3758/s13423-013-0572-3

Morey, R. D., Hoekstra, R., Rouder, J. N., Lee, M. D., & Wagenmakers, E.-J. (2016). The fallacy of placing confidence in confidence intervals. Psychonomic Bulletin & Review, 23(1), 103–123. https://doi.org/10.3758/s13423-015-0947-8

Salsburg, D. (2009). Uma senhora toma chá…: Como a estatística revolucionou a ciência no século XX (J. M. Gradel, Trad.). Zahar.

Como citar este post

Lima, M. (2024, 18 de dezembro). O que é intervalo de confiança? Blog Psicometria Online. https://www.blog.psicometriaonline.com.br/o-que-e-intervalo-de-confianca

Bruno Figueiredo Damásio

Sou Psicólogo, mestre e doutor em Psicologia. Venho me dedicando à Psicometria desde 2007.

Fui professor e chefe do Departamento de Psicometria da UFRJ durante os anos de 2013 a 2020. Fui editor-chefe da revista Trends in Psychology, da Sociedade Brasileira de Psicologia (SBP) e Editor-Associado da Spanish Journal of Psychology, na sub-seção Psicometria e Métodos Quantitativos.

Tenho mais de 50 artigos publicados e mais de 5000 citações, nas melhores revistas nacionais e internacionais.

Em 2020, saí da UFRJ para montar a minha formação, a Psicometria Online Academy.

Meu foco é que você se torne um(a) pesquisador(a) de excelência. Clique aqui para conhecer a Academy.

Compartilhe sua opinião sobre este post

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Posts sugeridos

Qual é o papel da matemática na carreira de psicometrista?

O que é correção de Bonferroni?

Qual é a diferença entre aprendizagem supervisionada e não supervisionada?

Conteúdo

Mais lidos

O que é correlação de Pearson?

Teste t de Student

O que é o teste de Shapiro-Wilk?

Qual é a diferença entre R e RStudio?

Postados recentemente

O que é validade convergente?

Validade dos testes psicológicos

Como realizar a análise de variância no JASP?

O que é análise multivariada de variância (MANOVA)?

Deseja se tornar completamente autônomo e independente na análise dos seus dados?

Junte-se a mais de 22.300 membros e receba conteúdos exclusivos e com prioridade

Categorias