Banco de dados inédito revela padrões de desinformação antivacina no Telegram

Um grupo multidisciplinar reunido pelo Laboratório de Inteligência Artificial Recod.ai, da Unicamp, mergulhou nas redes sociais e agrupou quatro milhões de postagens com apenas um objetivo: traçar os caminhos da desinformação antivacina que circula pelo aplicativo de mensagens Telegram no Brasil. O conjunto coletado inclui 1,4 milhão de arquivos de imagem, vídeo, áudio e enquetes – tudo compartilhado organicamente pelos usuários das redes ou turbinado pelos algoritmos. Com base nesses materiais, os pesquisadores criaram um banco de dados totalmente aberto, para uso sem finalidades comerciais, que está disponível no Repositório de Dados da Universidade. Trata-se de uma ferramenta que auxilia na valorização da verdade quando o assunto é saúde pública.

A análise abrangeu publicações feitas entre janeiro de 2020 e junho de 2025. O recorte temporal teve início nas primeiras semanas após a descoberta do coronavírus da covid-19 e se estendeu até os anos pós-pandemia, período de considerável circulação de desinformação na área de saúde, principalmente sobre a eficácia de tratamentos.

“Queremos entender melhor as motivações e estratégias de propagação da desinformação, mais precisamente na questão da vacinação. O tipo de comunicação que sobrevive, ganha força e se propaga nesse meio tem muita semelhança com os mecanismos de seleção natural que vemos na natureza. Se algum tipo de narrativa não está gerando engajamento, naturalmente as pessoas vão parar de reproduzi-la”, explica Leopoldo Lusquino Filho, colaborador do Recod.ai e docente da Unesp.

“Nós fizemos uma análise e conseguimos identificar que existem canais que só disseminam desinformação, outros que apenas a compartilham, e os que fazem as duas coisas. Existe uma estratégia por trás disso. Eventos externos, como a eleição de Donald Trump nos Estados Unidos, geram um efeito dominó nessas redes. É possível perceber também que há muitas mensagens compartilhadas por robôs”, detalha o pesquisador.

Ainda de acordo com Lusquino Filho, o fato de 2026 ser um ano eleitoral no Brasil tende a intensificar a circulação de conteúdos desinformativos. Isso porque as áreas de saúde e política acabam integrando disputas ideológicas que ficam mais acirradas nesse período. “Tivemos contato com outras agências de verificação de informações e elas confirmaram que nunca houve uma quantidade tão grande de desinformação política quanto neste ano”, aponta.

Primeiros passos

O primeiro passo para criar o banco de dados sobre desinformação antivacina foi identificar, em artigos de agências de checagem, os principais boatos sobre o tema. A partir disso, os pesquisadores selecionaram canais e grupos no Telegram, por ser esta uma base de dados mais acessível para fins de pesquisa e por ser conhecida por disseminar conteúdos antivacina. Isso foi feito com base em palavras-chave comuns nesse meio e de recomendações do algoritmo da própria plataforma para encontrar canais públicos semelhantes com mais de mil membros.

Na sequência, os cientistas desenvolveram uma ferramenta de coleta de dados personalizada nos canais e grupos. Depois do processo de coleta, os dados passaram por uma curadoria.

O projeto contou com o apoio da empresa Maritaca.ai para uso do modelo Sabiá, que facilitou a identificação de postagens relacionadas à vacinação. A privacidade dos usuários dos canais e grupos também foi assegurada. Eles passaram por um processo de anonimização, no qual a identificação do autor da mensagem foi removida. Somado a isso, informações pessoais como telefone, e-mail e registros de entradas e saídas dos grupos também foram excluídas. Isso tudo para que o processo respeitasse as boas práticas de ética em pesquisa e proteção de dados.

Lacuna histórica

De acordo com o Recod.ai, a iniciativa busca suprir uma lacuna histórica em relação à falta de dados abertos e sistematizados sobre a infodemia – o excesso de informações, incluindo notícias falsas ou imprecisas, que se espalham rapidamente durante uma crise sanitária – no caso brasileiro. “Os dados mostram que a desinformação vai além da saúde e envolve disputas políticas, crenças e desconfiança nas instituições — com impactos reais, como a queda da cobertura vacinal”, ressalta o material de divulgação científica do laboratório.

O conjunto de dados ocupa 5,5 terabytes de armazenamento (1 terabyte equivale a 1.024 gigabytes), reunindo conteúdos postados por 71.672 usuários em 119 grupos do Telegram. Há 407.723 mensagens relacionadas especificamente à postura antivacina, o que corresponde a 10,2% das postagens que compõem o banco de dados.

“Analisamos as reais motivações das pessoas que consomem informação negacionista na área de saúde, principalmente no que diz respeito à questão vacinal, e quais são as estratégias eficientes para propagação dessa desinformação”, explica a doutoranda Michelle Diniz Lopes, integrante da equipe de pesquisa, graduada em Matemática e especialista em Estatística e Neurociências. “Identificamos diversos nichos: o da desconfiança institucional, crenças injustificadas, visão de mundo e política, preocupações religiosas e fobias”, conta.

Disputas ideológicas

As narrativas de infodemia postadas por usuários do Telegram viraram espaço de disputas ideológicas. No espaço virtual, surgem com frequência temas ligados à saúde, à ciência, a instituições e políticas públicas e a crenças e desconfianças, além da disputa política propriamente dita. Ainda de acordo com o material de divulgação do Recod.ai, a presença maciça dessas narrativas indica que a desinformação na área de saúde passou a ter efeitos concretos na população. Isso trouxe impactos na política pública de vacinação, como se viu na perda de penetração do Programa Nacional de Imunizações (PNI), criado em 1973 para garantir às pessoas o acesso universal e gratuito às vacinas recomendadas pela Organização Mundial da Saúde (OMS). Em 2020, o PNI alcançou o menor percentual de cobertura vacinal da sua história (75%) , de acordo com apuração do Instituto Butantan. A desinformação tem muita influência nisso.

Na tentativa de contribuir para reverter esse quadro, o Recod.ai espera que o novo banco de dados ajude as comunidades científica e de saúde a desenvolverem estratégias baseadas em evidências para mitigar a desinformação e a hesitação vacinal. “O entendimento dos padrões da infodemia é essencial para reconstruir o diálogo e a confiança com pessoas afetadas por narrativas falsas”, reforça o material de divulgação do trabalho científico.

As mais diversas áreas de pesquisa podem se beneficiar dos dados coletados. No campo do processamento de linguagem natural, por exemplo, serve como ferramenta para entender grandes volumes de postagens; nas ciências sociais, que permite compreender as narrativas antivacina; na análise de redes, servirá para identificar grupos e perfis influentes na disseminação de desinformação; e, no estudo das realidades sintéticas, contribui para identificar vídeos e imagens que são gerados por IA para apoiar discursos antivacina.

Michelle Lopes destaca o papel social do trabalho e a sua capacidade de orientar a população em geral. “Existem muitas pesquisas que não conseguem ter uma aplicabilidade social, mas no Recod.ai nós sempre tentamos vincular esse trabalho com a extensão, para que ele possa ser aproveitado pela sociedade como um todo. É importante dizer que temos utilizado a IA para analisar e encontrar padrões, mas é fundamental sempre existir uma curadoria humana”, salienta Lopes.

Na opinião dela, é fundamental “que possamos fazer questionamentos de forma estruturada, em prol do nosso desenvolvimento como sociedade”. Isso só é possível porque contamos com diversos pesquisadores, em um grupo multidisciplinar, que nos apoiam. Nossa busca é pela verdade.”, completa.

Ressentimento

A pós-doutoranda Christiane Versuti, com formação em Ciências Sociais e Comunicação, colaborou como pesquisadora no projeto. Ela entrou como uma usuária comum em diversos grupos do Telegram e acompanhou suas movimentações. Nesse ambiente, percebeu que o ressentimento e a busca por pertencimento movem quem acompanha cada postagem. “A falta de letramento midiático torna tudo ainda mais hostil. As pessoas não têm o hábito de checar as fontes ou só compartilhar algo quando têm certeza do conteúdo”, diz a pesquisadora.

Para Versuti, o ambiente digital fica ainda mais turbulento quando a questão da religião aparece. “É a lógica do racional contra o emocional. Tem gente que só aceita a ciência quando a informação bate com suas crenças. O mesmo acontece em relação à imprensa: os jornalistas só são considerados sérios quando falam o que a pessoa defende”, destaca Christiane, que se deparou com momentos que beiram o absurdo. “Encontrei mensagens que tratavam a enzima conhecida como luciferase como algo demoníaco apenas pela vaga lembrança que seu nome trazia. Outras apontavam que a aplicação dessa enzima transformaria as pessoas em zumbis”, lembra Versuti, explicando que luciferase é uma enzima bioluminescente que catalisa a oxidação, produzindo luz em diversos organismos como vagalumes, bactérias e fungos, por exemplo.

Próximas etapas

Em uma nova etapa do trabalho, os pesquisadores vão além da identificação das mensagens antivacina. Eles querem compreender o que leva as pessoas a aderirem a esse tipo de conteúdo. “Outros projetos de pesquisa já coletaram bases de dados amplas como a nossa, mas não as disponibilizam gratuitamente. Esse material costuma ser vendido por valores altos. Mas, no nosso caso, qualquer outro grupo acadêmico pode pegar as análises que a gente fez. Já disponibilizamos a base de dados do Telegram e, agora, estamos trabalhando com o Instagram, YouTube e X. Vamos disponibilizar isso ainda este ano, também de forma totalmente aberta e gratuita”, adianta o pesquisador Lusquino Filho. Neste mês, representantes do Recod.ai vão se reunir com funcionários do Ministério da Saúde para oferecer a ferramenta como fonte de futuras políticas públicas no país.

O banco de dados é resultado de uma parceria entre o Recod.ai e a Maritaca.ai, reunindo expertises acadêmicas e tecnológicas no desenvolvimento de soluções baseadas em IA. O projeto recebeu apoio financeiro da Fundação de Amparo à Pesquisa do Estado de São Paulo (Fapesp), por meio do Projeto Horus, do Conselho Nacional de Desenvolvimento Científico e Tecnológico (CNPq) e do Ministério da Saúde, a partir do Projeto Aletheia, iniciativa de pesquisa que usa IA e linguística computacional para combater a desinformação em saúde.

As informações são do Jornal da Unicamp - jornal.unicamp.br