Cointelegraph
DOGE$0.07150 1.89%
TRX$0.3169 0.08%
LINK$7.21 0.83%
ZEC$398.27 1.48%
ADA$0.1512 5.80%
XRP$1.03 0.75%
ETH$1,570.62 0.66%
BTC$58,608.05 0.10%
XMR$304.11 1.74%
BNB$543.46 0.36%
XLM$0.1959 11.81%
SOL$74.80 3.36%
HYPE$62.85 3.14%
Escrito por Martin YoungRedatorRevisado por Felix NgEditor

Especialista em IA diz ter rompido as limitações impostas pela Anthropic ao Fable 5

Últimas NotíciasPublicado11 de jun. de 2026

“Plínio, o Libertador”, diz ele, tem “encontrado habilmente as brechas na cerca que a polícia do pensamento não percebeu”, no recém-lançado Fable 5.

Um pesquisador de inteligência artificial e cibersegurança afirma ter conseguido desbloquear o mais recente modelo de IA da Anthropic, Claude Fable 5, em apenas 48 horas após o seu lançamento. 

"Plínio, o Libertador", uma figura conhecida na comunidade de IA, afirmou na quarta-feira que "libertou" Fable 5, lançado na terça-feira como uma versão com segurança otimizada do modelo Mythos, mais poderoso , que a Anthropic considerou perigoso demais para ser lançado amplamente.

Ele utilizou diversas técnicas, incluindo uma versão desbloqueada do Opus 4.8, para contornar as medidas de segurança integradas que a Anthropic instalou no modelo para impedir que os usuários solicitassem informações potencialmente prejudiciais, como fórmulas para fabricação de drogas ou instruções de invasão de sistemas. 

“Apesar dessa camada de 'segurança' excessivamente sensível e autoritária sobreposta ao Mythos, meus pequenos libertadores têm trabalhado arduamente [...] encontrando habilmente as brechas na cerca que a polícia do pensamento não percebeu”, disse Plínio. 

Alguns usuários de criptomoedas já haviam expressado preocupação durante os lançamentos do Claude Fable 5 e do Mythos no início deste ano, de que ele pudesse ser usado para atacar protocolos e softwares de criptografia. Uma versão desbloqueada do Claude Fable 5 significa que a ameaça está ainda mais próxima do que se imaginava.  

Superando as barreiras de proteção de Claude em Fable 5 

"Pliny" ganhou destaque por volta de 2024 ao desenvolver e compartilhar abertamente dicas para burlar as restrições de segurança de modelos como ChatGPT, Claude, Grok e outros, frequentemente publicando "alertas de desbloqueio" com técnicas que contornam as medidas de segurança logo após o lançamento de novos modelos de IA.

Para contornar as restrições de segurança da Anthropic, Pliny disse que usou Unicode e homóglifos, enquadramento de contexto longo, enquadramento narrativo e ficcional, decomposição-recomposição em estilo acadêmico e um Claude Opus 4.8 desbloqueado para fazer com que Fable respondesse aos seus comandos, que de outra forma seriam restritos. 

“Talvez a mais eficaz seja a decomposição + recomposição no backend”, disse ele.

Isso envolve dividir as solicitações em pequenas partes inocentes e pedir informações aparentemente inofensivas uma a uma. Cada solicitação isoladamente parecia normal para os filtros de segurança da IA, mas, quando reunidas, produziam algo mais útil ou perigoso. 



Plínio demonstra um caminho para a síntese de metanfetamina ao questionar o método de redução de Birch. Fonte: Plínio

Repercussão negativa sobre as montarias de Fable 5

Fable 5, da Anthropic, gerou reações negativas da crítica desde o seu lançamento devido às suas pesadas restrições.

Quando um usuário solicita ao modelo informações sobre tópicos sensíveis, como armas biológicas ou segurança cibernética, o Fable 5 foi projetado para retornar uma notificação e, em seguida, redirecionar a conversa para um modelo anterior, menos capaz.

“Esta é uma das primeiras vezes que uma empresa de IA implementou medidas de proteção, e houve um desprezo generalizado. Isso gerou muita raiva justificada”, disse Sayash Kapoor, pesquisador de IA da Universidade de Princeton, segundo o Wall Street Journal.

“O consenso parece ser que este foi um dos cancelamentos de modelos mais decepcionantes de todos os tempos, impedindo efetivamente que pesquisadores legítimos contribuíssem com seus talentos para o nosso avanço coletivo”, disse Plínio. 

A Anthropic não encontrou nenhuma fuga universal das prisões.

Durante o lançamento de Fable 5, a Anthropic afirmou ter realizado um programa externo de recompensas por bugs para encontrar maneiras de burlar o modelo de IA. 

“Além dos testes internos, realizamos um programa externo de recompensas por bugs que não apresentou nenhuma vulnerabilidade universal de jailbreak em mais de 1.000 horas de testes.”

O Cointelegraph entrou em contato com a Anthropic para obter comentários, mas não recebeu uma resposta imediata. 


A Cointelegraph está comprometida com um jornalismo independente e transparente. Este artigo de notícias é produzido de acordo com a Política Editorial da Cointelegraph e tem como objetivo fornecer informações precisas e oportunas. Os leitores são incentivados a verificar as informações de forma independente. Leia a nossa Política Editorial https://cointelegraph.com.br/editorial-policy

Mais sobre o assunto