INTRODUÇÃO

A Microsoft AI anunciou nesta quinta-feira o lançamento de três modelos fundamentais de inteligência artificial capazes de gerar texto, voz e imagens. A iniciativa marca um esforço contínuo da gigante de tecnologia para construir sua própria pilha de modelos de IA multimodal, mesmo mantendo sua parceria estratégica com a OpenAI. Os modelos MAI-Transcribe-1, MAI-Voice-1 e MAI-Image-2 representam um avanço significativo na oferta da empresa, com foco em velocidade, personalização e custo acessível.

DESENVOLVIMENTO

Publicidade
Publicidade

Desenvolvidos pela equipe MAI Superintelligence, liderada pelo CEO da Microsoft AI, Mustafa Suleyman, os modelos trazem capacidades impressionantes. O MAI-Transcribe-1 transcreve fala em 25 idiomas diferentes e é 2,5 vezes mais rápido que a oferta anterior da Azure. Já o MAI-Voice-1 gera 60 segundos de áudio em apenas um segundo e permite a criação de vozes personalizadas. O MAI-Image-2, um modelo de geração de vídeo, foi inicialmente lançado em março e agora se junta aos outros na plataforma Microsoft Foundry.

Segundo Suleyman, a abordagem da Microsoft é centrada no ser humano, otimizando para como as pessoas realmente se comunicam. Em um mercado cada vez mais saturado de LLMs, a empresa aposta na competitividade de preços como diferencial, com custos que começam em $0,36 por hora para transcrição, $22 por milhão de caracteres para voz e $5 por milhão de tokens para entrada de texto no modelo de imagem.

CONCLUSÃO

O lançamento desses três modelos consolida a posição da Microsoft como uma força independente no cenário de IA, oferecendo alternativas mais rápidas e baratas aos produtos de Google e OpenAI. Com a promessa de mais modelos em breve no Foundry e em produtos Microsoft, a empresa demonstra seu compromisso em expandir sua presença no mercado multimodal, mantendo ao mesmo tempo sua parceria estratégica com a OpenAI.