INTRODUÇÃO
Há quase dois anos, o CEO da Microsoft Satya Nadella previu que a inteligência artificial substituiria o trabalho intelectual - os empregos de colarinho branco ocupados por advogados, banqueiros de investimento, bibliotecários, contadores, profissionais de TI e outros. Mas, apesar do enorme progresso feito pelos modelos de fundação, a mudança no trabalho intelectual tem sido lenta para chegar. Modelos dominaram pesquisa aprofundada e planejamento agente, mas, por qualquer razão, a maioria do trabalho de colarinho branco tem sido relativamente inalterada. É um dos maiores mistérios na IA - e graças a uma nova pesquisa da gigante de dados de treinamento Mercor, estamos finalmente obtendo algumas respostas.
DESENVOLVIMENTO
A nova pesquisa analisa como os principais modelos de IA se saem realizando tarefas reais de trabalho de colarinho branco, extraídas de consultoria, banco de investimento e direito. O resultado é um novo benchmark chamado APEX-Agents - e até agora, todos os laboratórios de IA estão recebendo uma nota de reprovação. Diante de consultas de profissionais reais, até os melhores modelos lutaram para acertar mais de um quarto das perguntas. A grande maioria das vezes, o modelo retornou com uma resposta errada ou nenhuma resposta. De acordo com o CEO da Mercor, Brendan Foody, que trabalhou no artigo, o maior ponto de tropeço dos modelos foi rastrear informações em vários domínios - algo que é integral para a maior parte do trabalho intelectual realizado por humanos.
CONCLUSÃO
"Uma das grandes mudanças neste benchmark é que construímos todo o ambiente, modelado após serviços profissionais reais", disse Foody ao TechCrunch. "A maneira como fazemos nosso trabalho não é com um indivíduo nos dando todo o contexto em um só lugar. Na vida real, você está operando no Slack, Google Drive e todas essas outras ferramentas." Para muitos modelos de IA agente, esse tipo de raciocínio de múltiplos domínios ainda é incerto. A pesquisa da Mercor demonstra claramente que, embora a IA tenha feito avanços significativos, ela ainda não está pronta para substituir o trabalho intelectual complexo, revelando limitações fundamentais que precisam ser superadas antes que a previsão de Nadella se torne realidade.

