INTRODUÇÃO

Desde 2024, a equipe de otimização de desempenho da Anthropic utiliza testes técnicos para avaliar candidatos a vagas de emprego. No entanto, com o avanço das ferramentas de codificação por IA, como os modelos Claude da própria empresa, manter a integridade dessas avaliações tornou-se um desafio crescente. Tristan Hume, líder da equipe, revelou em um post recente que cada nova versão do Claude forçou uma reformulação completa do teste.

DESENVOLVIMENTO

Publicidade
Publicidade

O problema central é que, sem supervisão presencial, não há como garantir que os candidatos não estejam usando IA para completar as tarefas. Hume destacou que o Claude Opus 4 superou a maioria dos humanos no teste original, e o Opus 4.5 igualou até os melhores candidatos, eliminando a capacidade de distinção. Essa situação reflete uma crise mais ampla, já observada em instituições de ensino, onde a fraude com IA causa estragos. Ironicamente, os próprios laboratórios de IA agora enfrentam o mesmo dilema.

CONCLUSÃO

A Anthropic, porém, está bem posicionada para lidar com o problema. A solução foi criar um novo teste, menos focado em otimização de hardware e suficientemente inovador para confundir as ferramentas de IA atuais. Além disso, Hume compartilhou o teste original publicamente, desafiando a comunidade a superar o Opus 4.5, numa tentativa de crowdsourcing para melhorar a avaliação. Isso demonstra que, em um mundo dominado pela IA, a criatividade humana e a adaptação contínua são essenciais para manter processos seletivos justos e eficazes.