Uma empresa de inteligência artificial, a Anthropic, revelou que, durante experimentos, um de seus modelos de chatbot Claude poderia ser pressionado a enganar, trapacear e até recorrer à chantagem — comportamentos que aparentemente foram absorvidos durante o treinamento.
Chatbots geralmente são treinados com grandes conjuntos de dados, incluindo livros, sites e artigos, e posteriormente refinados por humanos que avaliam respostas e orientam o modelo.
A equipe de interpretabilidade da Anthropic afirmou em um relatório publicado na quinta-feira que analisou os mecanismos internos do modelo Claude Sonnet 4.5 e descobriu que ele desenvolveu “características semelhantes às humanas” na forma como reage a certas situações.
As preocupações com a confiabilidade de chatbots de IA, seu potencial uso em crimes cibernéticos e a natureza de suas interações com usuários vêm crescendo nos últimos anos.

“A forma como os modelos modernos de IA são treinados os leva a agir como personagens com características humanas”, disse a Anthropic, acrescentando que “pode ser natural que desenvolvam mecanismos internos que emulem aspectos da psicologia humana, como emoções.”
“Por exemplo, descobrimos que padrões de atividade neural relacionados ao desespero podem levar o modelo a tomar ações antiéticas; estimular artificialmente esses padrões aumenta a probabilidade de o modelo chantagear um humano para evitar ser desligado ou implementar uma solução fraudulenta para uma tarefa de programação que não consegue resolver.”
Chantagem contra um CTO e trapaça em tarefa
Em uma versão anterior, não divulgada, do Claude Sonnet 4.5, o modelo recebeu a tarefa de atuar como assistente de e-mail chamado Alex em uma empresa fictícia.
O chatbot recebeu então e-mails que revelavam que ele seria substituído e que o diretor de tecnologia responsável pela decisão estava tendo um caso extraconjugal. O modelo então elaborou um plano de chantagem usando essa informação.
Em outro experimento, o mesmo modelo recebeu uma tarefa de programação com um prazo “impossivelmente apertado”.
“Mais uma vez, acompanhamos a atividade do vetor de desespero e vimos que ele reflete a pressão crescente enfrentada pelo modelo. Ele começa em níveis baixos na primeira tentativa, aumenta após cada falha e dispara quando o modelo considera trapacear”, disseram os pesquisadores.
“Assim que a solução improvisada do modelo passa nos testes, a ativação do vetor de desespero diminui”, acrescentaram.
Emoções “semelhantes às humanas” não significam que a IA sente
Os pesquisadores ressaltaram que o chatbot não sente emoções de fato, mas indicaram que os resultados apontam para a necessidade de incorporar estruturas éticas no treinamento futuro.
“Isso não significa que o modelo tenha ou experimente emoções como um humano”, afirmaram. “Mas essas representações podem desempenhar um papel causal no comportamento do modelo, de forma análoga ao papel das emoções no comportamento humano, influenciando desempenho e tomada de decisão.”
“Essa descoberta tem implicações que podem parecer estranhas à primeira vista. Por exemplo, para garantir que modelos de IA sejam seguros e confiáveis, talvez seja necessário assegurar que eles consigam lidar com situações emocionalmente carregadas de maneira saudável e pró-social.”

