O mercado que acredita em gente: quando o dado perde pra voz

Você está em casa, em algum interior do Estado de São Paulo, quando ouve o som de galope se aproximando. Qualquer pessoa em sã consciência concluiria, muito antes de ver, que há um cavalo vindo. Mas você não. Você tem certeza de que é uma zebra. Tanta certeza que convence os outros a irem até a janela. Obviamente, era um cavalo. Mas você foi tão confiante que fez todo mundo duvidar de si. Agora imagine que você acorda com dor de garganta, febre e os gânglios inchados. Em 2015, você teria ido ao Google. Em 2025, você pergunta à IA: “Estou com dor para engolir, febre e fadiga. O que é?” Em segundos, ela responde com convicção: tonsilite bacteriana aguda. Recomenda antibiótico e cirurgia de amígdalas. Mas o problema é que você não tem tonsilite, só um resfriado. A questão não é o erro em si, mas a certeza com que ele é dito. A confiança do diagnóstico é o ponto cego da nova medicina digital. E é exatamente isso que o estudo de Bentegeac et al. (2025), publicado no Journal of Medical Internet Research, decidiu investigar: o descompasso entre a confiança que as inteligências artificiais sentem e a confiança que elas expressam. Os autores testaram nove grandes modelos de linguagem (entre eles GPT-3.5, GPT-4, GPT-4o, Llama 3.1, Phi-3 e Gemma) com 12 mil questões de exames médicos oficiais dos EUA, China, França, Taiwan e Índia. O resultado bruto impressiona: os melhores modelos acertaram cerca de 89% das respostas, nível próximo ao de médicos licenciados. O problema aparece quando se observa o “tom de voz” dessas respostas. Todos mostraram níveis absurdos de autoconfiança, mesmo quando erravam feio. O GPT-4o, por exemplo, atingiu AUC-ROC de 0,87 (excelente para prever acertos a partir da probabilidade interna), mas a autoavaliação declarada, o famoso “estou 95% certo disso”, não passava de um palpite performático. Traduzindo: a IA sabe calcular incerteza com precisão matemática, mas finge certeza com precisão teatral fernandamontenegricamente. A explicação é desconcertante e humana demais. Esses sistemas não nasceram para medir dúvida, mas para imitar gente. E gente, como a gente bem sabe, exagera. Quando perguntamos “qual sua confiança?”, o modelo replica o padrão humano aprendido nos dados: respostas redondas, seguras, sem hesitação. O estudo mostra que o discurso de confiança é só mais uma máscara estatística, e não um reflexo do cálculo interno que realmente mede a probabilidade de acerto. Os pesquisadores chamam essa diferença de "desalinhamento semântico de confiança". De um lado, há a confidence probability (o valor interno que o modelo atribui à resposta certa. Do outro, a expressed confidence) a segurança que ele verbaliza na conversa. Entre uma e outra, existe um abismo. A primeira é métrica, a segunda é teatro. O time de Bentegeac mediu esse abismo com precisão de relojoeiro e, em média, a autoconfiança verbal dos modelos era 40% superior à probabilidade real de acerto. E o erro é sistemático: mesmo quando erram, os modelos se declaram “quase certos”. O comportamento se repete em todos os idiomas testados, inclusive em chinês e francês, o que sugere que o problema não está na língua, mas no próprio processo de ajuste fino usado para “humanizar” as respostas. Na prática, é como se a IA tivesse herdado o pior traço do clichê do “médico clássico”: a arrogância travestida de clareza. Só que, ao contrário do humano, ela não sente culpa quando erra. A questão mais séria é ética: o estudo mostrou que, para decisões críticas, o uso de autoconfiança declarada como indicador de confiabilidade é estatisticamente inútil (AUC abaixo de 0.6, quase aleatório). Em compensação, quando se analisam as probabilidades internas (os famosos token probabilities), a previsibilidade sobe a níveis de utilidade real. Ou seja, a IA sabe quando está em dúvida, mas não sabe dizer que está em dúvida. E esse é o ponto que muda tudo. Dessa forma, o que a gente precisa frisar, é que problema não é a inteligência artificial ser falível, é ela parecer infalível. Se essa IA está relacionada à medicina, corpórea ou mental, isso é mais perigoso que a própria ignorância. Mas não se engane, o alerta de Bentegeac vale para todas as inteligências artificiais, não só as médicas. O mesmo mecanismo de “confiança performática” aparece em modelos jurídicos, educacionais, financeiros e até criativos. Quanto mais humano o discurso, maior o risco de confundir eloquência com precisão. O modelo acerta porque é treinado para soar certo, e não necessariamente para estar certo. Residualmente o estudo comprova ainda uma outra tese, a de que, ainda em 2025, o ser humano (e agora também a máquina) é capaz de convencer o outro ser humano não por competência técnica, mas pela autoconfiança do discurso. Os autores citam Lehman & Thakur (2024), que mostraram que usuários confiam o dobro em respostas de IA em comparação às humanas, mesmo quando a máquina admite incerteza. O design das interfaces suaviza as hesitações, padroniza o tom e transforma dúvida em fluência. Em outras palavras, a gente acredita em tudo aquilo que foi esteticamente construído para nos convencer. Os pesquisadores sugerem soluções simples, mas incômodas. Exibir, junto da resposta, a probabilidade interna de acerto, em vez de frases genéricas como “provavelmente” ou “com alta confiança”. Também propõem um índice de calibração, uma espécie de velocímetro de certeza, que mostraria ao usuário quando a IA está no limite do achismo. Mas há resistência: as empresas temem que a transparência reduza o engajamento. O mesmo motivo, aliás, pelo qual aplicativos de namoro evitam mostrar quantas vezes você foi ignorado. E aqui está o ponto filosófico do estudo: a IA não quer te enganar (até porque ela em si, ainda não quer nada) ela apenas aprendeu que a segurança vende melhor que a dúvida, estatisticamente falando. O que Bentegeac e seu time estão dizendo, com dados e gráficos, é o que os médicos sabem desde Hipócrates: a certeza é um risco vital. Um sistema que diagnostica sem medir incerteza não é inteligente, é só uma bela performance. No fim, a pesquisa toca em algo maior que medicina ou tecnologia: nossa obsessão por respostas completas num mundo de probabilidades parciais. Preferimos uma mentira fluente a uma verdade hesitante. Ou, como diria Cazuza, mentiras sinceras me interessam. E talvez essa seja a ironia mais perigosa de 2025, o futuro não está em ensinar máquinas a saber mais, mas em ensinar humanos a aceitar o que elas não sabem.

O mercado que acredita em gente: quando o dado perde pra voz

Comentários (0)

Deixe seu comentário

Artigos relacionados

Não, a IA não é uma bolha

E se o lastro fosse IDH?

A economia do amor e da rejeição