De acordo com Beating, a equipa Kaldi do AI Lab da Xiaomi publicou de forma open-source o OmniVoice, um modelo de TTS para clonagem de voz zero-shot que suporta 646 línguas. O modelo consegue replicar as características da voz a partir de apenas segundos de áudio de referência e funciona entre línguas — uma única voz pode sintetizar fala em mandarim, japonês, coreano e outras línguas. Todo o código, pesos e dados de treino foram disponibilizados open-source sob a licença Apache-2.0.
O OmniVoice utiliza uma arquitectura simplificada com um único Transformer bidireccional que mapeia directamente texto em tokens acústicos discretos, conseguindo uma inferência 40x mais rápida do que em tempo real no PyTorch. Treinado com 580 mil horas de áudio provenientes de 50 conjuntos de dados open-source, o OmniVoice superou sistemas comerciais em semelhança vocal e inteligibilidade em 24 línguas testadas, e igualou ou excedeu gravações humanas em 102 línguas.
Isenção de responsabilidade: As informações contidas nesta página podem ser provenientes de terceiros e não representam os pontos de vista ou opiniões da Gate. O conteúdo apresentado nesta página é apenas para referência e não constitui qualquer aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou o carácter exaustivo das informações e não poderá ser responsabilizada por quaisquer perdas resultantes da utilização destas informações. Os investimentos em ativos virtuais implicam riscos elevados e estão sujeitos a uma volatilidade de preços significativa. Pode perder todo o seu capital investido. Compreenda plenamente os riscos relevantes e tome decisões prudentes com base na sua própria situação financeira e tolerância ao risco. Para mais informações, consulte a
Isenção de responsabilidade.
Related Articles
O Benchmark reafirma a recomendação de compra de 27$ na Bitdeer à medida que a BTDR dispara 21% com a aposta na infra-estrutura de IA
De acordo com a Benchmark Equity Research, na quinta-feira a empresa reiterou a sua recomendação de compra e a meta de preço de 27 dólares para a Bitdeer Technologies (BTDR), citando o potencial de reavaliação das ações à medida que transita para a IA e
GateNews3h atrás
Video Rebirth lança ferramenta de IA BACH para geração de vídeo multi-shot até 30 segundos
O vídeo Rebirth lançou BACH a 7 de maio, uma ferramenta que gera vídeos multi-shot de até 30 segundos a partir de prompts de texto e imagens de referência. A ferramenta mantém a consistência dos personagens entre os planos, segue as instruções de câmara e produz vídeo nativo em 1080p com efeitos sonoros, narração e
GateNews8h atrás
A Tether lança o modelo de IA médica MedPsy QVAC, atingindo uma pontuação de 62,62 na versão com 17 mil milhões de parâmetros
De acordo com a Odaily, o Tether AI Research Group lançou o QVAC MedPsy, um modelo de IA médica concebido para funcionar localmente em smartphones e dispositivos vestíveis, sem dependência de nuvem. A versão com 1,7 mil milhões de parâmetros obteve 62,62 em sete benchmarks médicos, superando o MedGemma-1.5-4B da Google em 11,42 poi
GateNews9h atrás
TCV lidera a $160M Ronda Série B para a startup de seguros Corgi
A Corgi, uma startup norte-americana de seguros empresariais, anunciou a 6 de maio que angariou 160 milhões de dólares numa ronda de financiamento Série B liderada pela TCV, a uma avaliação de 1,3 mil milhões de dólares, segundo a TechCrunch. A ronda incluiu também a Kindred Ventures, a Leblon Capital e a First Order Fund. Isto eleva o financiamento total da Corgi para 268
CryptoFrontier17h atrás
B.AI ultrapassa 1,7 milhão de utilizadores a 7 de maio e lança programa de recompensas
Segundo a B.AI, a plataforma de infra-estruturas de IA ultrapassou 1,7 milhões de utilizadores a 7 de maio. A plataforma, que se centra na proteção da privacidade e na infraestrutura da economia de agentes, está a oferecer aos novos utilizadores 500 mil créditos gratuitos no registo, preços sem margem em todos os modelos, e uma oferta por tempo limitado de 1:1
GateNews18h atrás
Osome reduz mais de 70 funções e melhora o EBITDA em 50% com a mudança para IA
De acordo com a Tech in Asia, a plataforma de gestão corporativa Osome, sediada em Singapura, reduziu mais de 70 cargos ao longo dos últimos dois anos, ao mesmo tempo que recorre a IA para tratar tarefas de conformidade, como o registo de transações e o processamento de faturas. O CEO Eugenio Ferrante afirmou que a empresa trocou um crescimento mais lento da receita i
GateNews21h atrás