Resultados de la búsqueda para "AUDIO"

Kimi lanza el nuevo modelo de audio universal Kimi-Audio

Jin10 datos 26 de abril, hoy, Kimi lanzó un nuevo proyecto de Código abierto: el nuevo modelo de audio base universal Kimi-Audio. Según se informa, este modelo admite múltiples tareas como el reconocimiento de voz, la comprensión de audio, la conversión de audio a texto y el diálogo por voz.
Más

AliTongyi's Qwen2-Audio open-source audio language model, with related papers selected for the ACL 2024 conference.

El 13 de agosto, Gold10 Data informó que Ali Tongyi ha lanzado el modelo Código abierto Qwen2-Audio en la familia de modelos Código abierto Qwen2. Qwen2-Audio permite la pregunta y respuesta de voz sin necesidad de entrada de texto, comprendiendo y analizando señales de audio enviadas por los usuarios, incluyendo voz humana, sonidos naturales y música. Este modelo supera significativamente a los modelos anteriores en múltiples evaluaciones autorizadas. El equipo de Tongyi también ha lanzado una nueva evaluación de modelos de comprensión de audio llamada Indicador de referencia, cuyo artículo relacionado ha sido seleccionado para la conferencia de alto nivel internacional ACL2024 que se está celebrando esta semana.
Más
  • 3

Perfect World Games y NVIDIA continúan explorando la aplicación de la IA en escenarios de juego

De acuerdo con las últimas noticias del WeChat oficial de Perfect World Games, en la madrugada del 19 de marzo, hora de Beijing, se llevó a cabo la Conferencia NVIDIA AI (NVIDIA GTC 2024) en el SAP Center de San José, California, EE. UU. El CEO de NVIDIA, Jensen Huang, habló sobre el tema "Presenciar el momento transformador de la IA" y compartió cómo la plataforma de computación acelerada de NVIDIA está impulsando la próxima ola de IA, gemelos digitales, tecnologías en la nube y computación sostenible. GTC también anunció que el juego de terminal Xianxia MMORPG de Perfect World Games "Zhuxian World" se ha conectado oficialmente a la tecnología Audio2Face de NVIDIA (la IA generativa convierte fácilmente el audio en tecnología de animación), y aprovechó esta conferencia para mostrar a la audiencia global los resultados de la combinación con "Zhuxian World", y las dos partes continuarán manteniendo estrechos intercambios y cooperación en múltiples campos y escenarios de IA en el futuro.
Más

Meta anunció el marco de IA audio2photoreal, que puede generar escenas de diálogo de personajes ingresando archivos de doblaje

Meta presentó recientemente un marco de IA llamado audio2photoreal, que es capaz de generar una serie de modelos de personajes NPC realistas y "sincronizar los labios" y "posar" automáticamente los modelos de personajes con la ayuda de los archivos de voz en off existentes. El informe oficial de investigación señaló que después de recibir el archivo de doblaje, el marco fotorrealista Audio2 primero generará una serie de modelos NPC y luego utilizará la tecnología de cuantificación y el algoritmo de difusión para generar acciones de modelo, en las que la tecnología de cuantificación proporciona una referencia de muestra de acción para el marco y el algoritmo de difusión se utiliza para mejorar el efecto de las acciones de los personajes generadas por el marco. El cuarenta y tres por ciento de los evaluadores en el experimento controlado estaban "muy satisfechos" con las escenas de diálogo de los personajes generadas por el marco, por lo que los investigadores consideraron que el marco fotorrealista de Audio2 era capaz de generar movimientos "más dinámicos y expresivos" que los productos de la competencia en la industria. Se informa que el equipo de investigación ahora ha hecho público el código y el conjunto de datos relevantes en GitHub.
Más
  • 1