Da antropologia para o futebol

Todo mundo acha que extrair dados é simples (eu tenho certeza que você acha também), até tentar fazer isso com milhares de documentos diferentes. No início parece banal: "o sistema" lê um PDF, identifica campos como “valor”, “data”, “cliente”, e pronto, ta extraído... Mas basta aumentar o volume para o inferno começar. Porque em cada lote de arquivos há um detalhe novo, um termo diferente, um layout que desafia a lógica. Aí tem um fornecedor que chama o valor de “Total”, outro de “Valor Final”, outro escreve “Montante devido” no cabeçalho. E sempre há aquele que, por algum motivo insondável, coloca o número certo no lugar errado. Há um ditado nos EUA "the devil in the details". O diabo está no detalhe. E não é? É nesse tipo de cenário que surge o conceito de schema drift, o deslizamento de estrutura que faz com que sistemas automatizados percam o rumo quando o padrão muda. Em português simples: é quando o seu robô de leitura preferido se confunde porque o mundo real não respeita planilhas. E foi para enfrentar esse tipo de desastre cotidiano que o grupo de pesquisadores liderado por Chen et al. (2025) decidiu investigar até que ponto a engenharia de prompts pode substituir o retrabalho técnico e o re-treinamento de modelos inteiros. Tive acesso a um estudo super recente, publicado na revista Electronics, não trata de uma utopia acadêmica, mas de um problema prático que custa horas, dinheiro e paciência às empresas que tentam automatizar processos de extração de informações em larga escala. O experimento foi bastante direto: devia construir um pipeline que integrasse um sistema de OCR avançado (no caso, o Amazon Textract) a um modelo de linguagem de última geração, com o objetivo de extrair informações relevantes de notas fiscais e faturas reais. (Só pra evitar a verborreia, "Sistema OCR" é um sistema de reconhecimento óptico que lê imagens e as transforma em texto. Sabe quando você tira a foto de uma página de caderno e o celular transforma essa imagem de uma página cheio de palavras escritas em um texto editável, copiável e rastreável? Então, esse é um sistema OCR em ação.) Mas... seguindo: o detalhe é que as faturas eram de uma empresa de transporte marítimo de Taiwan, ou seja, repletas de variações, ruídos, abreviações e unidades diferentes, o tipo de material que qualquer sistema “perfeito” detestaria enfrentar. O desafio era provar que uma IA pode entender o caos sem precisar ser reprogramada toda semana. Para isso, os autores compararam três formas de construir instruções para o modelo: a engenharia de prompt manual (feita por humanos), a prompt engineering automática (APE, Automatic Prompt Engineering), e uma versão híbrida chamada IPC (Instruction Prompt Calibration), que mistura o julgamento humano com o refinamento automatizado. Em tese, a primeira seria mais precisa, a segunda mais eficiente e a terceira o equilíbrio ideal. O resultado, porém, foi surpreendente: o modo automático superou os humanos em quase todas as métricas, obtendo F1 médio de 0,97 e acurácia superior a 91% no conjunto de teste SROIE, um dos mais usados na área de extração de informações em documentos. Em bom português, o sistema automático escreveu as instruções melhor do que os próprios engenheiros. O mais fascinante do estudo não é a inversão de papéis que ele representa: o que antes dependia de especialistas capazes de reprogramar modelos inteiros, agora se resume a ensinar a máquina a escrever seus próprios comandos. A tarefa de projetar inteligência virou, ironicamente, mais próxima da tarefa de ensinar português: definir contexto, corrigir ambiguidades e ajustar o tom da instrução até que o aluno entenda. O engenheiro deixa de ser um programador e passa a ser um instrutor de comportamento linguístico, ou seja, a gente sai das exatas a caminho das humanas. Os autores também observaram que, ao contrário dos modelos puramente estatísticos, os sistemas baseados em prompts são mais resilientes a mudanças de formato. Quando a fatura apresentava novas colunas, abreviações ou unidades diferentes, a IA se adaptava com facilidade, reinterpretando o padrão e traduzindo o significado em dados estruturados. Isso se deve ao uso de uma tabela de configuração (configuration table), uma espécie de mapa semântico que unifica nomes de campos e converte medidas automaticamente. Assim, “500 kg” e “1.102 lbs” viram a mesma coisa, e “8x50 litros” é entendido não como uma equação, mas como oito unidades de cinquenta litros. Essa camada semântica é o que permite à IA sobreviver ao caos do mundo físico. Mas nem tudo é milagre. Os autores são francos ao admitir que, em documentos muito ruidosos, como fotos mais borradas borradas, PDFs mal digitalizados, textos inclinados, a precisão cai drasticamente. Não existe prompt que conserte um dado ilegível. A IA pode raciocinar sobre contexto, mas não inventa o que não consegue ler. Isso mostra um limite fundamental dessa nova era: o problema não é mais ensinar a máquina a pensar, mas garantir que ela veja direito o assunto sobre o qual vai pensar. Do ponto de vista técnico, o estudo também traz uma contribuição relevante: o uso de um sistema de calibração que mede o ganho de desempenho a cada ajuste de prompt. Essa análise mostrou que o ganho de eficiência cresce de forma logarítmica — os primeiros ajustes produzem grandes melhorias, mas depois o retorno diminui. Em outras palavras, há um ponto ótimo de ajuste além do qual o esforço humano e computacional se torna desperdício. Isso é crucial para empresas que investem pesado em personalização: o segredo não está em criar o prompt perfeito, mas em saber quando parar de ajustá-lo. Há ainda uma lição menos visível, mas igualmente importante. A substituição do treinamento pesado por engenharia de linguagem significa que o poder de adaptação dos modelos deixou de ser técnico e passou a ser narrativo. Em vez de reconfigurar redes neurais, configuramos narrativas. A máquina não aprende novos conceitos; aprende novas formas de entender instruções. Isso muda completamente o custo cognitivo da inovação: treinar modelos custa energia e tempo, mas treinar instruções custa apenas linguagem. E linguagem é o recurso mais barato (e perigoso) do século XXI. Os pesquisadores também reconhecem que há um limite ético nesse novo paradigma. Quanto mais eficiente for o sistema em interpretar comandos, mais ele dependerá da clareza humana. Um prompt mal escrito, enviesado ou ambíguo pode levar a erros graves, como o registro incorreto de informações financeiras ou a criação de inferências falsas em processos jurídicos. Isso reforça a velha máxima: automatizar o erro é multiplicá-lo. E quando o erro é linguístico, ele se propaga com a elegância de uma verdade. No fim, o que o artigo de Chen e colegas demonstra é algo que transcende o tema técnico. Ensinar uma IA a entender recibos é, de certo modo, ensinar o ser humano a entender a própria linguagem. Cada campo, cada unidade e cada termo ambíguo revelam que o problema não está no dado, mas na forma como o descrevemos. É uma ironia elegante: quanto mais queremos padronizar o mundo, mais descobrimos que ele é impossível de padronizar. A lição final é pragmática. A engenharia de prompts funciona, e funciona bem, mas não porque é mágica. Funciona porque, no fundo, ela devolve à tecnologia o que é mais humano: a necessidade de interpretar contexto. E talvez seja isso que explique por que as máquinas estão ficando melhores em entender faturas e nós, cada vez piores em entender uns aos outros.

Da antropologia para o futebol

Comentários (0)

Deixe seu comentário

Artigos relacionados

O porre tem futuro

Safeboom: das guerras ao morango do amor

Seja a fogueira