De acordo com Beating, a equipe Kaldi do AI Lab da Xiaomi disponibilizou em código aberto o OmniVoice, um modelo de TTS para clonagem de voz zero-shot que oferece suporte a 646 idiomas. O modelo clona características da voz a partir de apenas segundos de áudio de referência e funciona entre idiomas — uma única voz pode sintetizar fala em mandarim, japonês, coreano e outros idiomas. Todo o código, pesos e dados de treinamento são disponibilizados em código aberto sob licença Apache-2.0.
O OmniVoice usa uma arquitetura simplificada com um único Transformer bidirecional que mapeia diretamente texto para tokens acústicos discretos, alcançando inferência 40x mais rápida que o tempo real no PyTorch. Treinado com 580.000 horas de áudio de 50 conjuntos de dados open-source, o OmniVoice superou sistemas comerciais em similaridade de voz e inteligibilidade em 24 idiomas testados e correspondeu ou superou gravações humanas em 102 idiomas.
Aviso: As informações nesta página podem ser provenientes de terceiros e não representam as opiniões ou pontos de vista da Gate. O conteúdo exibido nesta página é apenas para referência e não constitui aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou integridade das informações e não será responsável por quaisquer perdas decorrentes do uso dessas informações. Os investimentos em ativos virtuais apresentam altos riscos e estão sujeitos a uma volatilidade de preços significativa. Você pode perder todo o capital investido. Por favor, compreenda completamente os riscos envolvidos e tome decisões prudentes com base em sua própria situação financeira e tolerância ao risco. Para mais detalhes, consulte o
Aviso Legal.
Related Articles
WORLD3 lança hoje a rede de roteamento RouterLink AI, com suporte a 68+ modelos, incluindo GPT-5,5 e Claude Opus 4,7
De acordo com a ChainCatcher, a WORLD3 lançou hoje sua rede descentralizada de roteamento de IA RouterLink, permitindo o domínio permanente routerlink.ai. A plataforma agora oferece suporte a 68+ modelos de 20+ provedores, com 99,9% de disponibilidade e velocidade de liquidação diária superior a US$ 1,5 milhão no token $WAI .
O ao vivo
GateNews3h atrás
LG CNS lança plataforma PhysicalWorks para gerenciamento de frotas robóticas mistas
A LG CNS, braço de serviços de TI do grupo sul-coreano LG, lançou sua plataforma PhysicalWorks para treinar e gerenciar frotas mistas de robôs por meio de uma única camada de software unificada, de acordo com o The Korea Herald. Em uma demonstração, quatro robôs das empresas Unitree, Deep Robotics, Dexmate e Bear Robotics moveram caixas
CryptoFrontier5h atrás
CopilotKit abre código Open Generative UI: implementação do framework cross-agent do Claude Artifacts
O framework de front-end de agentes de IA open source CopilotKit anunciou em 7 de maio o lançamento do Open Generative UI, uma implementação open source da funcionalidade do Anthropic Claude Artifacts. akshay\_pachaar compilou e explicou que as versões do CopilotKit permitem que o agente gere HTML/SVG dinamicamente durante a execução e exiba isso em um iframe sandboxed com streaming token a token; assim, o usuário consegue ver em tempo real o processo de montagem da interface, sem precisar esperar a resposta completa. Antes do Anthropic Claude Artifacts, a capacidade de UI generativa só existia dentro dos próprios produtos da Anthropic; o CopilotKit levou o mesmo modelo a
ChainNewsAbmedia6h atrás
OpenAI Codex lança extensão para Chrome: permite testar Web App no navegador, acessar Context entre páginas e operar em paralelo
A OpenAI em 7 de maio (horário dos EUA) anunciou a extensão do Chrome do Codex, permitindo que agentes de codificação com o Codex operem diretamente dentro dos navegadores Chrome no macOS e no Windows. A documentação oficial do Codex explica que a extensão permite que o Codex teste apps web sem assumir o controle do navegador do usuário, obtenha contexto em várias abas, use o Chrome DevTools e execute outras tarefas em paralelo. A OpenAI também divulgou que os usuários ativos semanais do Codex ultrapassaram 4 milhões, crescendo 8 vezes desde o início do ano.
O que dá para fazer dentro do navegador: testar apps web, obter contexto entre páginas, usar DevTools
Extensão do Chrome
ChainNewsAbmedia6h atrás
O benchmark reafirma recomendação de compra de US$ 27 na Bitdeer enquanto BTDR dispara 21% com a expansão da infraestrutura de IA
De acordo com a Benchmark Equity Research, na quinta-feira a empresa reiterou sua recomendação de compra e sua meta de preço de US$ 27 para a Bitdeer Technologies (BTDR), citando o potencial de reavaliação das ações à medida que a empresa migra para a IA e
GateNews15h atrás
Video Rebirth Lança a Ferramenta BACH AI para Geração de Vídeos com Várias Tomadas de Até 30 Segundos
Video Rebirth lançou o BACH em 7 de maio, uma ferramenta que gera vídeos multi-shot de até 30 segundos a partir de prompts de texto e imagens de referência. A ferramenta mantém a consistência do personagem entre os takes, segue instruções de câmera e produz vídeo nativo em 1080p com efeitos sonoros, narração e
GateNews20h atrás