INTRODUÇÃO: A Cohere, empresa especializada em IA para o mercado corporativo, anunciou nesta quinta-feira o lançamento do Transcribe, seu primeiro modelo de voz. Trata-se de um sistema de reconhecimento automático de fala de código aberto, projetado para tarefas como transcrição de notas e análise de discurso. Com apenas 2 bilhões de parâmetros, o modelo é relativamente leve e pode ser executado em GPUs de nível consumidor, permitindo que usuários o hospedem localmente.
DESENVOLVIMENTO: O Transcribe suporta atualmente 14 idiomas, incluindo inglês, francês, alemão, italiano, espanhol, português, grego, holandês, polonês, chinês, japonês, coreano, vietnamita e árabe. Segundo a Cohere, o modelo supera concorrentes como Zoom Scribe v1, IBM Granite 4.0 1B, ElevenLabs Scribe v2 e Qwen3-ASR-1.7B Speech no leaderboard Open ASR do Hugging Face, com uma taxa média de erro de palavras (WER) de 5,42, a mais baixa do benchmark. Avaliações humanas indicaram uma taxa média de vitória de 61% sobre outros modelos em precisão, coerência e usabilidade. No entanto, o Transcribe apresentou desempenho inferior em português, alemão e espanhol. A empresa afirma que o modelo pode processar 525 minutos de áudio por minuto, um volume alto para sua classe, e planeja integrá-lo à sua plataforma de orquestração de agentes empresariais, North. O Transcribe está disponível gratuitamente via API e também será oferecido no Model Vault, a plataforma de inferência gerenciada da Cohere.
CONCLUSÃO: O lançamento do Transcribe reforça a crescente demanda por modelos de reconhecimento de fala, impulsionada por aplicativos de ditado e transcrição. A Cohere, que relatou receita recorrente anual de US$ 240 milhões para 2025 e sinaliza planos de abertura de capital em breve, posiciona-se competitivamente no mercado de IA empresarial com essa inovação acessível e de alto desempenho.

