INTRODUÇÃO: A empresa francesa de inteligência artificial Mistral anunciou nesta quinta-feira o lançamento de um novo modelo de texto para voz (TTS) de código aberto, chamado Voxtral TTS. O modelo é projetado para uso em assistentes de voz e casos empresariais, como suporte ao cliente, colocando a Mistral em competição direta com gigantes como ElevenLabs, Deepgram e OpenAI.
DESENVOLVIMENTO: O Voxtral TTS suporta nove idiomas, incluindo inglês, francês, alemão, espanhol, holandês, português, italiano, hindi e árabe. Segundo Pierre Stock, vice-presidente de operações científicas da Mistral AI, o modelo foi desenvolvido para ser compacto, cabendo em dispositivos de borda como smartwatches, smartphones e laptops, com custo significativamente menor que alternativas do mercado, mas mantendo performance de ponta. O modelo pode adaptar uma voz personalizada com menos de cinco segundos de amostra, capturando características como sotaques sutis, inflexões e irregularidades na fala. Baseado no Ministral 3B, ele permite troca fácil entre idiomas sem perder a identidade vocal, útil para dublagem ou tradução em tempo real. A Mistral enfatizou que o Voxtral TTS foi construído para soar humano e não robótico, com desempenho em tempo real: tem um tempo para primeiro áudio (TTFA) de 90ms para uma amostra de 10 segundos e um fator de tempo real (RTF) de 6x, renderizando um clipe de 10 segundos em cerca de 1,6 segundos.
CONCLUSÃO: O lançamento do Voxtral TTS marca um passo estratégico da Mistral na expansão de seu portfólio de IA, seguindo os modelos de transcrição lançados anteriormente este ano. Com foco em acessibilidade, multilinguismo e eficiência em dispositivos de borda, o modelo promete democratizar a tecnologia de voz sintética para empresas e desenvolvedores, intensificando a concorrência no setor de IA generativa.

