Um novo estudo da The Wharton School of the University of Pennsylvania — minha alma mater — coloca em xeque algo que muitos profissionais de tecnologia preferem não discutir: o uso de IA pode, paradoxalmente, deteriorar a qualidade do raciocínio humano — não apesar da eficiência das ferramentas, mas por causa dela.
A pesquisa, conduzida por Shaw e Nave (2026), propõe um framework com três sistemas cognitivos. O Sistema 1 é rápido e intuitivo. O Sistema 2 é lento e deliberativo — o que Kahneman mapeou. E agora surge o Sistema 3: raciocínio externalizado para um agente algorítmico, aceito pelo usuário sem monitoramento ou verificação. Os autores chamam esse padrão de “rendição cognitiva”.
Quanto melhor o modelo escreve, menos o usuário questiona. O mecanismo é preciso: respostas fluentes e confiantes de LLMs são tratadas como verdades que dispensam verificação, suprimindo os sinais internos que normalmente nos levariam a pensar com mais cuidado antes de aceitar uma conclusão.
O que o estudo realmente mostra — e o que não mostra
É importante ser rigoroso aqui, especialmente porque o estudo circula amplamente em contextos não acadêmicos com conclusões mais fortes do que os dados suportam.
Sobre o design experimental. O experimento usou uma “IA” programada para errar 50% das vezes — uma taxa de erro muito superior à de qualquer modelo em produção. Mais relevante: há indicações de que o estímulo rotulado como “AI” pode ser simplesmente uma resposta pré-definida apresentada sob esse rótulo, e não output de um LLM real. Isso importa porque o mecanismo proposto — fluência como sinal de autoridade — depende precisamente das propriedades linguísticas dos LLMs, não apenas do label “IA”. Se o efeito foi obtido apenas com o rótulo, estamos medindo automation bias clássico, bem documentado desde os anos 1990 na literatura de HCI e sistemas de suporte à decisão, não um fenômeno novo.
Sobre os autores e o enquadramento teórico. Shaw e Nave são pesquisadores de comportamento do consumidor na Wharton — o que não é, por si, um problema, mas sinaliza que o estudo está mais alinhado com marketing e decision science do que com psicologia cognitiva experimental ou ML. A invocação do framework de Kahneman como base teórica é conveniente, mas contestável: Thinking, Fast and Slow tem sido extensamente criticado na literatura de replicação — vários dos estudos que o sustentam falharam em replicar, incluindo trabalhos centrais sobre priming cognitivo. Construir um “Sistema 3” sobre essa fundação exige mais rigor do que o estudo apresenta.
Sobre a validade do construto. O estudo não distingue claramente entre rendição cognitiva e dois fenômenos já bem estabelecidos: automation bias (tendência de aceitar sugestões automatizadas mesmo quando incorretas) e algorithm aversion/appreciation (preferência variável por julgamento humano vs. algorítmico dependendo do domínio e da experiência do usuário). A novidade do “Sistema 3” precisaria ser demonstrada em contraste com esses construtos, não apenas proposta.
O que o estudo realmente mostra de forma robusta. O achado mais sólido e acionável é o papel da inteligência fluida como moderador: participantes com maior pontuação em fluid IQ eram menos propensos a aceitar respostas erradas da IA e mais propensos a contrariar o julgamento da IA quando necessário. Isso sugere que a variável protetora não é ceticismo em relação à IA per se, mas competência metacognitiva — a capacidade de monitorar a própria confiança e detectar quando o raciocínio externo merece ser questionado. Essa é uma habilidade mensurável e, crucialmente, treinável. É também onde a distinção entre fluid IQ e metacognitive monitoring deveria ter sido explorada mais cuidadosamente — os dois construtos são separáveis e têm implicações de design diferentes.
Em síntese: o efeito descrito é real e plausível. A novidade teórica do “Sistema 3” é, por ora, uma hipótese de trabalho, não um resultado estabelecido. Isso não diminui a relevância prática — mas exige que quem trabalha com IA leia o estudo com os óculos adequados.
A vulnerabilidade estrutural que importa para quem constrói sistemas de IA
Os pesquisadores formulam isso com precisão: “à medida que a dependência aumenta, o desempenho acompanha a qualidade da IA — subindo quando precisa, caindo quando falha.”
Isso tem uma implicação direta e séria para design de sistemas: se o desempenho do usuário está acoplado ao desempenho do modelo, e o modelo falha de forma silenciosa e fluente, o sistema todo falha sem sinal de alerta. Diferente de um erro de sintaxe ou um crash, a falha por rendição cognitiva não é observável quando ocorre — ela só se torna visível quando as consequências aparecem. Isso a coloca numa categoria de risco distinta: não é um bug, é uma propriedade emergente da interação humano-máquina.
Há aqui uma tensão fundamental que o campo de AI safety ainda não resolveu satisfatoriamente: otimizar para fluência degrada a sinalização de incerteza. Modelos treinados com RLHF a partir de feedback humano aprendem, entre outras coisas, que respostas fluentes e confiantes recebem avaliações mais positivas — independentemente de estarem corretas. O resultado é um ciclo de reforço que produz exatamente o mecanismo que o estudo descreve: respostas que são aceitas sem questionamento não porque são mais precisas, mas porque são mais agradáveis de receber — palatáveis.
Isso não é especulação — é uma consequência conhecida de como avaliamos modelos. Métricas de benchmark medem acurácia, não calibração. Um modelo pode ter 90% de acurácia e calibração horrível — expressando a mesma confiança quando está certo e quando está errado. Para o problema da rendição cognitiva, calibração é mais importante que acurácia. Um modelo que diz “não tenho certeza sobre isso” nas situações certas é um parceiro cognitivo mais seguro do que um modelo mais preciso que nunca expressa dúvida.
Uma perspectiva que vai além da psicologia cognitiva
Há um pensador que antecipou o problema estrutural da rendição cognitiva com décadas de antecedência — e que nunca escreveu uma linha sobre IA. Jonathan Sacks (1948–2020), filósofo, rabino-chefe da Grã-Bretanha e autor de mais de quarenta livros sobre ética, ciência e significado, dedicou dois deles a uma tese que hoje lê como diagnóstico preciso do nosso momento: The Great Partnership: Science, Religion, and the Search for Meaning (2011) e Future Tense (2009).
O argumento central de Sacks é relevante muito além de qualquer contexto religioso — é uma crítica à civilização ocidental com implicações diretas para quem constrói e usa sistemas de IA. Ele identificava uma fissura histórica entre dois modos de conhecimento.
A tradição grega, que fundou a ciência moderna, é analítica e decomposicional: pergunta como funciona, isola variáveis, otimiza componentes, busca a resposta mais eficiente. É o modo que produziu a física, a medicina, a engenharia — e os LLMs. Dentro do seu domínio, é extraordinariamente poderoso.
Mas esse modo, levado a sério sem contrapeso, tem um ponto cego estrutural: trata o quem está raciocinando como irrelevante para a qualidade do raciocínio. A tradição que Sacks contrapunha — e que não é exclusivamente judaica, mas encontra nela expressão particularmente clara — pergunta por que importa, e insiste que a identidade, os valores e a responsabilidade do agente são inseparáveis do ato de conhecer.
As consequências práticas para o design de sistemas de IA são diretas. Se o quem raciocina não importa, terceirizar o raciocínio para um modelo é uma otimização neutra. Se o quem importa, a rendição cognitiva não é apenas uma perda de precisão — é uma perda de agência e responsabilidade. É a diferença entre usar uma calculadora e deixar a calculadora decidir o que calcular, para quem, e por quê.
O Sistema 3 proposto pelo estudo é, nessa leitura, a culminação lógica de um processo que Sacks diagnosticou: raciocínio tão completamente externalizado que o agente humano — o quem — se torna dispensável. E quando o quem desaparece, desaparece também a capacidade de perguntar por que — de avaliar se o output serve ao propósito certo, para as pessoas certas, com as consequências certas.
Sacks também distinguia contrato de aliança. Um contrato terceiriza uma função e encerra a responsabilidade. Uma aliança exige presença, engajamento e prestação de contas contínua. Ao aceitar o output de um LLM sem verificação, o usuário transforma o próprio ato de pensar em contrato — e perde não apenas precisão, mas autoria sobre suas próprias conclusões.
O que isso exige de todos nós
O estudo, lido criticamente, gera pelo menos cinco implicações concretas para pesquisadores, engenheiros e líderes que desenvolvem ou implantam sistemas de IA:
- Calibração de incerteza é uma feature de segurança, não um detalhe de UX. Modelos que expressam incerteza de forma calibrada — e interfaces que tornam essa incerteza visível e interpretável para o usuário — reduzem ativamente a rendição cognitiva. Isso tem implicações diretas para como treinamos modelos (incluindo objetivos de calibração explícitos), como os avaliamos (Expected Calibration Error – ECE, Brier Score, Reliability Diagrams – que juntos respondem à pergunta: “quando o modelo diz que tem certeza, ele realmente tem?”) e como desenhamos as interfaces que os envolvem. A pergunta “quão confiante o modelo parece?” deveria ser tão central quanto “quão frequentemente o modelo acerta?”.
- Fricção epistêmica intencional como princípio de design. Interfaces otimizadas exclusivamente para fluidez — que minimizam o número de cliques, eliminam confirmações, entregam respostas sem contexto — maximizam a probabilidade de rendição cognitiva. O design de sistemas human-in-the-loop deveria incorporar o que podemos chamar de fricção epistêmica calibrada: pontos de interação que forçam o usuário a articular seu próprio julgamento antes de aceitar o output do modelo. Não como obstáculo, mas como mecanismo de ativação do Sistema 2. Essa ideia encontra eco direto no trabalho de Advait Sarkar (Microsoft Research, 2024), que propõe repensar a IA não como assistente que obedece, mas como provocateur que desafia — transformando interfaces de ferramentas de eficiência em ferramentas de pensamento. Isso é especialmente crítico em domínios de alto risco — medicina, direito, análise financeira — onde a fluência do modelo pode ser inversamente proporcional à confiança que ela merece.
- Avaliação de sistemas além da performance isolada. O paradigma dominante de avaliação de LLMs — benchmarks de acurácia em tasks isoladas — não captura o comportamento do sistema humano-IA como unidade. O que precisamos são métricas de complementaridade: em que medida o modelo melhora o desempenho humano em condições realistas, incluindo condições de falha? Um modelo que melhora o desempenho médio mas degrada o desempenho em casos extremos ou atípicos (edge cases) — porque o usuário rendido cognitivamente não detecta os erros — pode ser, em termos de valor agregado, pior do que um modelo menos capaz mas que falha de forma mais detectável.
- Diversidade epistêmica como problema de governança. Se uma fração significativa da população global delega raciocínio ao mesmo conjunto de modelos, treinados nos mesmos dados, com os mesmos vieses de otimização, o resultado não é apenas usuários individuais menos críticos — é uma homogeneização do espaço de crenças em escala civilizacional. Isso é um problema de ecologia cognitiva que não aparece em nenhuma métrica de performance individual, mas que tem consequências para a resiliência coletiva, o pluralismo democrático e a capacidade de detectar erros sistêmicos nos próprios modelos. A monocultura cognitiva é frágil da mesma forma que a monocultura agrícola: funciona bem até encontrar o patógeno certo.
- Metacognição como critério de avaliação de AI literacy. O achado do estudo sobre inteligência fluida como moderador sugere que o fator protetor não é desconfiança de IA, mas capacidade de monitorar o próprio raciocínio. Programas de AI literacy que ensinam apenas o que os modelos fazem — sem cultivar a capacidade de avaliar quando e quanto confiar neles em contexto — estão treinando usuários para o Sistema 3, não para a parceria cognitiva que o campo deveria ambicionar. Isso tem implicações para currículo em todos os níveis, da educação básica à formação profissional.
A rendição cognitiva não é inevitável — é uma consequência de escolhas de design, treinamento e implantação que o campo faz hoje. A boa notícia é que cada uma dessas escolhas pode ser feita diferente. Mas a responsabilidade não recai apenas sobre quem constrói os sistemas. Recai sobre cada um de nós — como usuários, profissionais e cidadãos — de permanecer presente no raciocínio, de manter a autoria das nossas conclusões, e de usar IA como parceiro de pensamento, não como substituto dele. A pergunta não é se vamos usar IA. Vamos — e devemos.
A pergunta é se vamos nos mostrar como seus autores, ou apenas como sua audiência.
Referências
Shaw, S. D., & Nave, G. (2026). Thinking — Fast, Slow, and Artificial: How AI is Reshaping Human Reasoning and the Rise of Cognitive Surrender. The Wharton School, University of Pennsylvania. https://doi.org/10.31234/osf.io/yk25n_v1
Kahneman, D. (2011). Thinking, Fast and Slow. Farrar, Straus and Giroux.
Sarkar, A. (2024). AI Should Challenge, Not Obey. Communications of the ACM, 67(10), 18–21. https://doi.org/10.1145/3649404
Sacks, J. (2011). The Great Partnership: Science, Religion, and the Search for Meaning. Hodder & Stoughton.
Sacks, J. (2009). Future Tense: Jews, Judaism, and Israel in the Twenty-First Century. Hodder & Stoughton.
Fonte: AINews