Um novo estudo da The Wharton School of the University of Pennsylvania — minha alma mater — coloca em xeque algo que muitos profissionais de tecnologia preferem não discutir: o uso de IA pode, paradoxalmente, deteriorar a qualidade do raciocínio humano — não apesar da eficiência das ferramentas, mas por causa dela.

A pesquisa, conduzida por Shaw e Nave (2026), propõe um framework com três sistemas cognitivos. O Sistema 1 é rápido e intuitivo. O Sistema 2 é lento e deliberativo — o que Kahneman mapeou. E agora surge o Sistema 3: raciocínio externalizado para um agente algorítmico, aceito pelo usuário sem monitoramento ou verificação. Os autores chamam esse padrão de “rendição cognitiva”.

Quanto melhor o modelo escreve, menos o usuário questiona. O mecanismo é preciso: respostas fluentes e confiantes de LLMs são tratadas como verdades que dispensam verificação, suprimindo os sinais internos que normalmente nos levariam a pensar com mais cuidado antes de aceitar uma conclusão.

O que o estudo realmente mostra — e o que não mostra

É importante ser rigoroso aqui, especialmente porque o estudo circula amplamente em contextos não acadêmicos com conclusões mais fortes do que os dados suportam.

Sobre o design experimental. O experimento usou uma “IA” programada para errar 50% das vezes — uma taxa de erro muito superior à de qualquer modelo em produção. Mais relevante: há indicações de que o estímulo rotulado como “AI” pode ser simplesmente uma resposta pré-definida apresentada sob esse rótulo, e não output de um LLM real. Isso importa porque o mecanismo proposto — fluência como sinal de autoridade — depende precisamente das propriedades linguísticas dos LLMs, não apenas do label “IA”. Se o efeito foi obtido apenas com o rótulo, estamos medindo automation bias clássico, bem documentado desde os anos 1990 na literatura de HCI e sistemas de suporte à decisão, não um fenômeno novo.

Sobre os autores e o enquadramento teórico. Shaw e Nave são pesquisadores de comportamento do consumidor na Wharton — o que não é, por si, um problema, mas sinaliza que o estudo está mais alinhado com marketing e decision science do que com psicologia cognitiva experimental ou ML. A invocação do framework de Kahneman como base teórica é conveniente, mas contestável: Thinking, Fast and Slow tem sido extensamente criticado na literatura de replicação — vários dos estudos que o sustentam falharam em replicar, incluindo trabalhos centrais sobre priming cognitivo. Construir um “Sistema 3” sobre essa fundação exige mais rigor do que o estudo apresenta.

Sobre a validade do construto. O estudo não distingue claramente entre rendição cognitiva e dois fenômenos já bem estabelecidos: automation bias (tendência de aceitar sugestões automatizadas mesmo quando incorretas) e algorithm aversion/appreciation (preferência variável por julgamento humano vs. algorítmico dependendo do domínio e da experiência do usuário). A novidade do “Sistema 3” precisaria ser demonstrada em contraste com esses construtos, não apenas proposta.

O que o estudo realmente mostra de forma robusta. O achado mais sólido e acionável é o papel da inteligência fluida como moderador: participantes com maior pontuação em fluid IQ eram menos propensos a aceitar respostas erradas da IA e mais propensos a contrariar o julgamento da IA quando necessário. Isso sugere que a variável protetora não é ceticismo em relação à IA per se, mas competência metacognitiva — a capacidade de monitorar a própria confiança e detectar quando o raciocínio externo merece ser questionado. Essa é uma habilidade mensurável e, crucialmente, treinável. É também onde a distinção entre fluid IQ e metacognitive monitoring deveria ter sido explorada mais cuidadosamente — os dois construtos são separáveis e têm implicações de design diferentes.

Em síntese: o efeito descrito é real e plausível. A novidade teórica do “Sistema 3” é, por ora, uma hipótese de trabalho, não um resultado estabelecido. Isso não diminui a relevância prática — mas exige que quem trabalha com IA leia o estudo com os óculos adequados.

A vulnerabilidade estrutural que importa para quem constrói sistemas de IA

Os pesquisadores formulam isso com precisão: “à medida que a dependência aumenta, o desempenho acompanha a qualidade da IA — subindo quando precisa, caindo quando falha.”

Isso tem uma implicação direta e séria para design de sistemas: se o desempenho do usuário está acoplado ao desempenho do modelo, e o modelo falha de forma silenciosa e fluente, o sistema todo falha sem sinal de alerta. Diferente de um erro de sintaxe ou um crash, a falha por rendição cognitiva não é observável quando ocorre — ela só se torna visível quando as consequências aparecem. Isso a coloca numa categoria de risco distinta: não é um bug, é uma propriedade emergente da interação humano-máquina.

Há aqui uma tensão fundamental que o campo de AI safety ainda não resolveu satisfatoriamente: otimizar para fluência degrada a sinalização de incerteza. Modelos treinados com RLHF a partir de feedback humano aprendem, entre outras coisas, que respostas fluentes e confiantes recebem avaliações mais positivas — independentemente de estarem corretas. O resultado é um ciclo de reforço que produz exatamente o mecanismo que o estudo descreve: respostas que são aceitas sem questionamento não porque são mais precisas, mas porque são mais agradáveis de receber — palatáveis.

Isso não é especulação — é uma consequência conhecida de como avaliamos modelos. Métricas de benchmark medem acurácia, não calibração. Um modelo pode ter 90% de acurácia e calibração horrível — expressando a mesma confiança quando está certo e quando está errado. Para o problema da rendição cognitiva, calibração é mais importante que acurácia. Um modelo que diz “não tenho certeza sobre isso” nas situações certas é um parceiro cognitivo mais seguro do que um modelo mais preciso que nunca expressa dúvida.

Uma perspectiva que vai além da psicologia cognitiva

Há um pensador que antecipou o problema estrutural da rendição cognitiva com décadas de antecedência — e que nunca escreveu uma linha sobre IA. Jonathan Sacks (1948–2020), filósofo, rabino-chefe da Grã-Bretanha e autor de mais de quarenta livros sobre ética, ciência e significado, dedicou dois deles a uma tese que hoje lê como diagnóstico preciso do nosso momento: The Great Partnership: Science, Religion, and the Search for Meaning (2011) e Future Tense (2009).

O argumento central de Sacks é relevante muito além de qualquer contexto religioso — é uma crítica à civilização ocidental com implicações diretas para quem constrói e usa sistemas de IA. Ele identificava uma fissura histórica entre dois modos de conhecimento.

A tradição grega, que fundou a ciência moderna, é analítica e decomposicional: pergunta como funciona, isola variáveis, otimiza componentes, busca a resposta mais eficiente. É o modo que produziu a física, a medicina, a engenharia — e os LLMs. Dentro do seu domínio, é extraordinariamente poderoso.

Mas esse modo, levado a sério sem contrapeso, tem um ponto cego estrutural: trata o quem está raciocinando como irrelevante para a qualidade do raciocínio. A tradição que Sacks contrapunha — e que não é exclusivamente judaica, mas encontra nela expressão particularmente clara — pergunta por que importa, e insiste que a identidade, os valores e a responsabilidade do agente são inseparáveis do ato de conhecer.

As consequências práticas para o design de sistemas de IA são diretas. Se o quem raciocina não importa, terceirizar o raciocínio para um modelo é uma otimização neutra. Se o quem importa, a rendição cognitiva não é apenas uma perda de precisão — é uma perda de agência e responsabilidade. É a diferença entre usar uma calculadora e deixar a calculadora decidir o que calcular, para quem, e por quê.

O Sistema 3 proposto pelo estudo é, nessa leitura, a culminação lógica de um processo que Sacks diagnosticou: raciocínio tão completamente externalizado que o agente humano — o quem — se torna dispensável. E quando o quem desaparece, desaparece também a capacidade de perguntar por que — de avaliar se o output serve ao propósito certo, para as pessoas certas, com as consequências certas.

Sacks também distinguia contrato de aliança. Um contrato terceiriza uma função e encerra a responsabilidade. Uma aliança exige presença, engajamento e prestação de contas contínua. Ao aceitar o output de um LLM sem verificação, o usuário transforma o próprio ato de pensar em contrato — e perde não apenas precisão, mas autoria sobre suas próprias conclusões.

O que isso exige de todos nós

O estudo, lido criticamente, gera pelo menos cinco implicações concretas para pesquisadores, engenheiros e líderes que desenvolvem ou implantam sistemas de IA:

Calibração de incerteza é uma feature de segurança, não um detalhe de UX. Modelos que expressam incerteza de forma calibrada — e interfaces que tornam essa incerteza visível e interpretável para o usuário — reduzem ativamente a rendição cognitiva. Isso tem implicações diretas para como treinamos modelos (incluindo objetivos de calibração explícitos), como os avaliamos (Expected Calibration Error – ECE, Brier Score, Reliability Diagrams – que juntos respondem à pergunta: “quando o modelo diz que tem certeza, ele realmente tem?”) e como desenhamos as interfaces que os envolvem. A pergunta “quão confiante o modelo parece?” deveria ser tão central quanto “quão frequentemente o modelo acerta?”.
Fricção epistêmica intencional como princípio de design. Interfaces otimizadas exclusivamente para fluidez — que minimizam o número de cliques, eliminam confirmações, entregam respostas sem contexto — maximizam a probabilidade de rendição cognitiva. O design de sistemas human-in-the-loop deveria incorporar o que podemos chamar de fricção epistêmica calibrada: pontos de interação que forçam o usuário a articular seu próprio julgamento antes de aceitar o output do modelo. Não como obstáculo, mas como mecanismo de ativação do Sistema 2. Essa ideia encontra eco direto no trabalho de Advait Sarkar (Microsoft Research, 2024), que propõe repensar a IA não como assistente que obedece, mas como provocateur que desafia — transformando interfaces de ferramentas de eficiência em ferramentas de pensamento. Isso é especialmente crítico em domínios de alto risco — medicina, direito, análise financeira — onde a fluência do modelo pode ser inversamente proporcional à confiança que ela merece.
Avaliação de sistemas além da performance isolada. O paradigma dominante de avaliação de LLMs — benchmarks de acurácia em tasks isoladas — não captura o comportamento do sistema humano-IA como unidade. O que precisamos são métricas de complementaridade: em que medida o modelo melhora o desempenho humano em condições realistas, incluindo condições de falha? Um modelo que melhora o desempenho médio mas degrada o desempenho em casos extremos ou atípicos (edge cases) — porque o usuário rendido cognitivamente não detecta os erros — pode ser, em termos de valor agregado, pior do que um modelo menos capaz mas que falha de forma mais detectável.
Diversidade epistêmica como problema de governança. Se uma fração significativa da população global delega raciocínio ao mesmo conjunto de modelos, treinados nos mesmos dados, com os mesmos vieses de otimização, o resultado não é apenas usuários individuais menos críticos — é uma homogeneização do espaço de crenças em escala civilizacional. Isso é um problema de ecologia cognitiva que não aparece em nenhuma métrica de performance individual, mas que tem consequências para a resiliência coletiva, o pluralismo democrático e a capacidade de detectar erros sistêmicos nos próprios modelos. A monocultura cognitiva é frágil da mesma forma que a monocultura agrícola: funciona bem até encontrar o patógeno certo.
Metacognição como critério de avaliação de AI literacy. O achado do estudo sobre inteligência fluida como moderador sugere que o fator protetor não é desconfiança de IA, mas capacidade de monitorar o próprio raciocínio. Programas de AI literacy que ensinam apenas o que os modelos fazem — sem cultivar a capacidade de avaliar quando e quanto confiar neles em contexto — estão treinando usuários para o Sistema 3, não para a parceria cognitiva que o campo deveria ambicionar. Isso tem implicações para currículo em todos os níveis, da educação básica à formação profissional.

A rendição cognitiva não é inevitável — é uma consequência de escolhas de design, treinamento e implantação que o campo faz hoje. A boa notícia é que cada uma dessas escolhas pode ser feita diferente. Mas a responsabilidade não recai apenas sobre quem constrói os sistemas. Recai sobre cada um de nós — como usuários, profissionais e cidadãos — de permanecer presente no raciocínio, de manter a autoria das nossas conclusões, e de usar IA como parceiro de pensamento, não como substituto dele. A pergunta não é se vamos usar IA. Vamos — e devemos.

A pergunta é se vamos nos mostrar como seus autores, ou apenas como sua audiência.

Referências

Shaw, S. D., & Nave, G. (2026). Thinking — Fast, Slow, and Artificial: How AI is Reshaping Human Reasoning and the Rise of Cognitive Surrender. The Wharton School, University of Pennsylvania. https://doi.org/10.31234/osf.io/yk25n_v1

Kahneman, D. (2011). Thinking, Fast and Slow. Farrar, Straus and Giroux.

Sarkar, A. (2024). AI Should Challenge, Not Obey. Communications of the ACM, 67(10), 18–21. https://doi.org/10.1145/3649404

Sacks, J. (2011). The Great Partnership: Science, Religion, and the Search for Meaning. Hodder & Stoughton.

Sacks, J. (2009). Future Tense: Jews, Judaism, and Israel in the Twenty-First Century. Hodder & Stoughton.

Fonte: AINews

Veja também:

‘Pergunte ao YouTube’: Google testa busca que parece Modo IA

Meta vai usar energia solar coletada no espaço para sustentar data centers de IA

IA como nova força de trabalho exige outro modelo de gestão empresarial

AINEWS – Plataforma especializada em Inteligência Artificial

Leave a Comment (Cancel reply)

Posts Recentes

Arquivos

Tags

Contato

(19) 98208-9414

Institucional

Serviços