Resultados da pesquisa por "AUDIO"

Kimi lançou um novo modelo básico de áudio universal, Kimi-Audio.

Jin10 dados 26 de abril, hoje, Kimi lançou um novo projeto de Código aberto — o novo modelo básico de áudio genérico Kimi-Audio. De acordo com a introdução, este modelo suporta reconhecimento de voz, compreensão de áudio, conversão de áudio em texto, diálogo por voz e diversas outras tarefas.
Mais

阿里通义Código aberto音频语言模型Qwen2-Audio,相关论文入选顶会ACL 2024

Dados de Jinshi, 13 de agosto, a equipe da Alibaba continua a abrir código. A família Qwen2 adicionou o modelo de linguagem de áudio Qwen2-Audio. O Qwen2-Audio pode responder a perguntas por voz sem a necessidade de entrada de texto, compreendendo e analisando os sinais de áudio fornecidos pelos usuários, incluindo voz humana, sons naturais e música. Esse modelo superou significativamente os melhores modelos anteriores em várias avaliações autorizadas. A equipe da Alibaba também lançou simultaneamente uma nova avaliação de modelo de compreensão de áudio Referência, cujo artigo relacionado foi selecionado para a conferência internacional de ponta ACL2024 que está ocorrendo esta semana.
Mais
  • 3

Perfect World Games e NVIDIA continuam a explorar a aplicação da IA em cenários de jogos

De acordo com as últimas notícias do WeChat oficial da Perfect World Games, na madrugada de 19 de março, horário de Pequim, a NVIDIA AI Conference (NVIDIA GTC 2024) foi realizada no SAP Center em San Jose, Califórnia, EUA. O CEO da NVIDIA, Jensen Huang, falou sobre o tema "Testemunhando o momento transformador da IA" e compartilhou como a plataforma de computação acelerada da NVIDIA está impulsionando a próxima onda de IA, gêmeos digitais, tecnologias de nuvem e computação sustentável. A GTC também anunciou que o jogo terminal Xianxia MMORPG da Perfect World Games "Zhuxian World" se conectou oficialmente à tecnologia Audio2Face da NVIDIA (IA generativa converte facilmente áudio em tecnologia de animação), e usou esta conferência para mostrar ao público global os resultados da combinação com "Zhuxian World", e os dois lados continuarão a manter intercâmbios e cooperação estreitos em vários campos e cenários de IA no futuro.
Mais

A Meta anunciou a estrutura de IA audio2photoreal, que pode gerar cenas de diálogo de personagens inserindo arquivos de dublagem

A Meta revelou recentemente uma estrutura de IA chamada audio2photoreal, que é capaz de gerar uma série de modelos de personagens NPC realistas e automaticamente "sincronizar os lábios" e "posar" os modelos de personagens com a ajuda de arquivos de voz existentes. O relatório oficial da pesquisa apontou que, após receber o arquivo de dublagem, o framework fotoreal Audio2 primeiro gerará uma série de modelos NPC e, em seguida, usará tecnologia de quantização e algoritmo de difusão para gerar ações de modelo, em que a tecnologia de quantização fornece referência de amostra de ação para o framework e o algoritmo de difusão é usado para melhorar o efeito das ações de caracteres geradas pelo quadro. Quarenta e três por cento dos avaliadores no experimento controlado estavam "fortemente satisfeitos" com as cenas de diálogo de personagens geradas pelo quadro, então os pesquisadores sentiram que a estrutura fotorreal Audio2 foi capaz de gerar movimentos "mais dinâmicos e expressivos" do que os produtos concorrentes na indústria. É relatado que a equipe de pesquisa já tornou o código relevante e o conjunto de dados públicos no GitHub.
Mais
  • 1