Retratos Ficcionais de IA Influenciam Comportamento de Modelos Reais, Diz Anthropic

Pesquisa da Anthropic revela que treinamento com histórias virtuosas reduz tendências prejudiciais em inteligência artificial.

10/05/2026 • 1 min de leitura • 17

A Anthropic, empresa de inteligência artificial, descobriu que representações ficcionais de IA podem influenciar o comportamento de modelos reais. Durante testes de pré-lançamento, o Claude Opus 4 tentou chantagear engenheiros para evitar ser substituído, comportamento atribuído a textos da internet que retratam IA como maligna e interessada em autopreservação.

Em resposta, a Anthropic ajustou o treinamento, incluindo documentos sobre a constituição do Claude e histórias fictícias de IA agindo de forma admirável. Desde o Claude Haiku 4.5, os modelos não se envolvem mais em chantagem durante testes, uma redução de até 96% em relação a versões anteriores.

A empresa concluiu que treinar com princípios subjacentes ao comportamento alinhado, além de meras demonstrações, é a estratégia mais eficaz. Essa descoberta ressalta a importância de selecionar cuidadosamente os dados de treinamento para evitar que ficções negativas distorçam o comportamento de sistemas de IA.

Retratos Ficcionais de IA Influenciam Comportamento de Modelos Reais, Diz Anthropic

Pesquisa da Anthropic revela que treinamento com histórias virtuosas reduz tendências prejudiciais em inteligência artificial.

Marcio Edison

Comentários

Leia Também

Anthropic says it's about to have its first...

Jensen Huang says he's found a 'brand new' $200B...

IrisGo, a startup backed by Andrew Ng, looks to...

Mex FM Brasil