O seu Blog de Psicometria

Tenha acesso à nossa enciclopédia virtual de conhecimento em Psicometria e Análise de Dados

Junte-se a mais de 22.300 membros e receba conteúdos exclusivos e com prioridade

Compartilhe nas Redes Sociais

O que é machine learning?

Marcos Lima

dez 4, 2024

Nos últimos anos, o termo machine learning tem ganhado cada vez mais destaque, pois muitas empresas e disciplinas científicas já estão utilizando os algoritmos desse campo para lidar com problemas complexos. Mas afinal, o que é machine learning? Neste post, você vai entender o conceito por meio de exemplos de aplicações e algoritmos da área. Além disso, discutiremos brevemente como machine learning pode beneficiar o campo da psicometria.

Qual é a definição de machine learning?

Machine learning, ou aprendizado de máquina, é uma subárea da inteligência artificial que busca programar algoritmos capazes de aprender a partir da experiência. Em outras palavras, o objetivo do machine learning é extrair conhecimento dos dados e, assim, prever resultados não observados ou comportamentos futuros.

banner Psicometria Online Academy.

Considere, por exemplo, um serviço de e-mail que permite aos usuários sinalizar remetentes como emissores de spam. Com base nisso, os desenvolvedores podem programar o serviço para automaticamente direcionar mensagens futuras do mesmo remetente para a caixa de spam.

Entretanto, nesse cenário, não houve aprendizagem com a experiência. Em seguida, vamos considerar um cenário diferente: com base nas sinalizações de spam de vários usuários sobre as mensagens recebidas, o serviço de e-mail pode extrair informações importantes sobre essas mensagens. Por exemplo, o serviço pode identificar os títulos dessas mensagens, palavras ou expressões recorrentes, a presença de termos no imperativo, como “compre” ou “assine”.

Com essas informações e algum algoritmo de machine learning, como máquinas de vetores de suporte, o serviço de e-mail se torna capaz de prever com alta precisão se novas mensagens consistem em spam (Figura 1). Isso permitiria, portanto, que o próprio sistema tomasse uma decisão (i.e., enviar a nova mensagem para a caixa de spam) sem que o usuário precise marcar o remetente.

machine learning e caixa de spam.
Figura 1. Representação da ideia de que algoritmos de machine learning podem aprender a detectar spams na caixa de e-mails.

Exemplos de problemas que podem ser resolvidos com machine learning

Agora que já entendemos o conceito, vamos explorar alguns exemplos práticos de como o machine learning pode ser aplicado em diversas áreas:

  • Mineração de dados: lida com grandes volumes de dados, visando identificar associações ou padrões. Por exemplo, análises de sentimentos relacionados à pandemia de COVID-19, baseadas em tweets de usuários da rede social X (Xue et al., 2020);
  • Visão computacional: o objetivo dessa área é ensinar máquinas a “ver” e interpretar imagens. Um exemplo claro é o uso de machine learning em carros autônomos, que utilizam essa tecnologia para identificar obstáculos e, desse modo, tomar decisões seguras (Eysenck & Eysenck, 2021, Capítulo 6);
  • Reconhecimento de padrões: o machine learning também é aplicado para identificar padrões em grandes volumes de dados. Na área médica, por exemplo, ele ajuda a detectar doenças precocemente, como a presença de câncer de pele, usando imagens dermatológicas (Esteva et al., 2017);
  • Processamento de linguagem natural: muitas tarefas envolvendo a linguagem natural se beneficiam do uso de machine learning. Por exemplo, o reconhecimento de padrões óticos, a criação de assistentes virtuais inteligentes (como Alexa e Siri) e até o preenchimento automático de texto são resultados dessa aplicação;
  • Programas de customização: além disso, o machine learning também é utilizado para personalizar experiências dos usuários em plataformas de e-commerce e de streaming. Por exemplo, algoritmos aprendem as preferências de um usuário com base no seu comportamento e fazem recomendações mais adequadas ao seu perfil.

O que são aprendizagem supervisionada e não supervisionada?

Dentro do machine learning, existem diversas abordagens para ensinar algoritmos. Neste post, abordaremos apenas duas delas, a saber, a aprendizagem supervisionada e a aprendizagem não supervisionada.

Aprendizagem supervisionada

Na aprendizagem supervisionada, o algoritmo recebe as respostas “corretas” durante o treinamento. Em outras palavras, o desfecho que ele tenta prever já está rotulado no banco de dados.

Por exemplo, em problemas de regressão, o objetivo é prever um desfecho contínuo, como o tempo de sobrevida de pacientes, com base em variáveis preditoras, como IMC e níveis de colesterol. O algoritmo compara suas previsões com o valor rotulado, corrigindo seus erros a cada iteração da fase de treino.

Na Figura 2, observe que a coluna rotulada como Y1-chapéu, indicada pela seta verde, representa o que o algoritmo de regressão tenta aprender. A presença da coluna Y1 mostra que o aprendizado é supervisionado, pois o algoritmo pode comparar suas previsões com o resultado esperado.

machine learning problema de regressão.
Figura 2. Representação de um banco de dados adequado para lidar com um problema de regressão.

Já em problemas de classificação, buscamos predizer um desfecho categórico (e.g., paciente saudável, com transtorno cognitivo leve, com doença de Alzheimer etc.) com base em uma série de variáveis preditoras (e.g., idade, sexo, escolaridade etc.).

A Figura 3 ilustra um banco de dados adequado para lidar com um problema de classificação. Note que ele é praticamente idêntico à figura anterior, exceto que agora as colunas Y2 e Y2-chapéu contêm números inteiros, que representam categorias discretas. Mais uma vez, o modelo pode comparar se sua classificação corresponde à resposta esperada com base no banco de dados.

machine learning problema de classificação.
Figura 3. Representação de um banco de dados adequado para lidar com um problema de classificação.

Em síntese, quer em problemas de regressão ou de classificação, algoritmos de aprendizagem supervisionada podem corrigir seu erro a cada iteração da fase de treino do modelo, pois o banco de dados possui colunas que rotulam a resposta esperada.

Aprendizagem não supervisionada

Em tarefas de aprendizagem não supervisionada, o algoritmo trabalha com dados sem rótulos, tentando identificar padrões por conta própria. Um exemplo disso é a redução de dimensionalidade, como na análise de componentes principais. Nessa abordagem, o algoritmo busca reduzir o número de variáveis no conjunto de dados, mantendo o máximo possível da variabilidade original.

Na Figura 4, observamos um banco de dados sem uma coluna Y para predizer. O objetivo das técnicas de redução de dimensionalidade é gerar um número menor de variáveis (ou componentes) que sintetizem as informações dos dados originais, preservando o conteúdo mais relevante.

machine learning problema de redução de dimensionalidade.
Figura 4. Representação de um banco de dados adequado para lidar com um problema de redução de dimensionalidade.

Outro exemplo de aprendizagem não supervisionada é a clusterização, como o algoritmo k-means, que agrupa casos com base em similaridades. Nesse processo, o algoritmo forma grupos (clusters) de acordo com características comuns, como ocorre na segmentação de mercado. Por exemplo, consumidores podem ser divididos em grupos com base em perfis de compra semelhantes.

A Figura 5 representa um banco de dados adequado para lidar com problemas de clusterização. Primeiramente, note que, diferente de técnicas de redução de dimensionalidade, aqui o objetivo não é transformar as variáveis do banco de dados para criar um conjunto menor de variáveis que as sintetizam. Ao invés disso, o objetivo é criar uma única coluna adicional no banco de dados, que segmentará os casos em diferentes grupos (ou clusters), com base nas variáveis usadas pelo algoritmo de clusterização.

machine learning problema de clusterização.
Figura 5. Representação de um banco de dados adequado para lidar com um problema de clusterização.

Como o machine learning pode contribuir com a psicometria?

A psicometria pode se beneficiar de várias maneiras com o uso de machine learning. Por exemplo, Orrú et al. (2020) destacam como técnicas de validação cruzada (e.g., k-fold cross-validation) podem oferecer estimativas mais realistas da replicabilidade de modelos em dados de teste, ou seja, dados que não foram usados no treinamento inicial do algoritmo.

Além disso, Trognon et al. (2022) argumentam que técnicas de machine learning aplicadas à psicometria podem melhorar a coleta de evidências de validade. Essas técnicas ajudariam a fornecer evidências robustas tanto de validade de construto quanto de validade de critério, o que é essencial para garantir a qualidade dos instrumentos psicológicos.

O machine learning também pode ajudar a lidar com problemas comuns na psicometria, como o da não representatividade das amostras. Nesse sentido, o uso de big data oferece uma oportunidade para ampliar a representatividade dos dados. Contudo, com grandes volumes de dados, o risco de overfitting aumenta (podemos pensar no overfitting como um modelo que se ajusta muito bem aos dados, mas com generalização ruim). Para lidar com isso, técnicas de regularização (e.g., ridge, LASSO), são fundamentais para ajustar o modelo e garantir que ele generalize bem para novos conjuntos de dados.

Para outros exemplos de aplicações do machine learning em psicometria, recomendamos o editorial de Franco (2021).

Veja também:

Conclusão

Neste post, você aprendeu o que é machine learning. A formação da Psicometria Online Academy conta com módulos de Inteligência Artificial Aplicada a Pesquisas Científicas, que incluem conteúdos sobre algoritmos de aprendizagem supervisionada e não supervisionada, probabilistic graphical models, redes neurais e técnicas de processamento de linguagem natural.

Se você quer aprender sobre esses conteúdos, então faça parte da Psicometria Online Academy, a maior formação de pesquisadores quantitativos da América Latina. Conheça toda nossa estrutura aqui e nunca mais passe trabalho sozinho(a).

Referências

Esteva, A., Kuprel, B., Novoa, R. A., Ko, J., Swetter, S. M., Blau, H. M., & Thrun, S. (2017). Dermatologist-level classification of skin cancer with deep neural networks. Nature, 542, 115–118. https://doi.org/10.1038/nature21056

Eysenck, M. W., & Eysenck, C. (2022). AI vs humans. Routledge. https://doi.org/10.4324/9781003162698

Franco, V. R. (2021). Aprendizado de máquina e psicometria: Inovações analíticas na avaliação psicológica [Editorial]. Avaliação Psicológica, 20(3), A–C. https://doi.org/10.15689/ap.2021.2003.ed

Mitchell, T. M. (1997). Machine learning. McGraw-Hill.

Müller, A. C., & Guido, S. (2016). Introduction to machine learning with Python: A guide for data scientists. O’Reilly.

Orrù, G., Monaro, M., Conversano, C., Gemignani, A., & Sartori, G. (2020). Machine learning in psychometrics and psychological research. Frontiers in Psychology, 10, Article 2970. https://doi.org/10.3389/fpsyg.2019.02970

Trognon, A. Cherifi, Y. I., Habibi, I., Demange, L., & Prudent, C. (2022). Using machine-learning strategies to solve psychometric problems. Scientific Reports, 12, Article 18922. https://doi.org/s41598-022-23678-9

Xue, J., Chen, J., Hu, R., Chen, C., Zheng, C., Su, Y., & Zhu, T. (2020). Twitter discussions and emotions about the COVID-19 pandemic: Machine learning approach. Journal of Medical Internet Research, 22(11), Article e20550. https://doi.org/10.2196/20550

Como citar este post

Lima, M. (2024, 4 de dezembro). O que é machine learning? Blog Psicometria Online. https://www.blog.psicometriaonline.com.br/o-que-e-machine-learning/

Bruno Figueiredo Damásio

Sou Psicólogo, mestre e doutor em Psicologia. Venho me dedicando à Psicometria desde 2007.

Fui professor e chefe do Departamento de Psicometria da UFRJ durante os anos de 2013 a 2020. Fui editor-chefe da revista Trends in Psychology, da Sociedade Brasileira de Psicologia (SBP) e Editor-Associado da Spanish Journal of Psychology, na sub-seção Psicometria e Métodos Quantitativos.

Tenho mais de 50 artigos publicados e mais de 5000 citações, nas melhores revistas nacionais e internacionais.

Em 2020, saí da UFRJ para montar a minha formação, a Psicometria Online Academy.

Meu foco é que você se torne um(a) pesquisador(a) de excelência. Clique aqui para conhecer a Academy.

Compartilhe sua opinião sobre este post

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Posts sugeridos

Qual é o papel da matemática na carreira de psicometrista?

O que é correção de Bonferroni?

Qual é a diferença entre aprendizagem supervisionada e não supervisionada?

Conteúdo

Mais lidos

O que é correlação de Pearson?

Teste t de Student

O que é o teste de Shapiro-Wilk?

Qual é a diferença entre R e RStudio?

Postados recentemente

O que é validade convergente?

Validade dos testes psicológicos

Como realizar a análise de variância no JASP?

O que é análise multivariada de variância (MANOVA)?

Deseja se tornar completamente autônomo e independente na análise dos seus dados?

Junte-se a mais de 22.300 membros e receba conteúdos exclusivos e com prioridade

Categorias