Результаты поиска для "AUDIO"

Kimi выпустил новую универсальную аудиофундаментальную модель Kimi-Audio

Jin10 данные 26 апреля, сегодня Kimi выпустила новый открытый исходный код проект — новый универсальный аудиофундаментальный модель Kimi-Audio. Согласно информации, эта модель поддерживает множество задач, включая распознавание речи, понимание аудио, преобразование аудио в текст, голосовые диалоги и другие.
Больше

Али Тунг И открытый исходный код аудио-языковой модели Qwen2-Audio, связанный документ был выбран на конференцию ACL 2024

Данные о золоте на 13 августа, модель открытого исходного кода Ali Tongyi, Qwen2-семейство моделей добавляет аудиоязыковую модель Qwen2-Audio. Qwen2-Audio может выполнять голосовой запрос без ввода текста, понимать и анализировать аудиосигналы, включая человеческий голос, естественные звуки, музыку и т. д. Эта модель значительно превосходит предыдущие лучшие модели во многих авторитетных оценках. Команда Tongyi также одновременно выпустила новую аудиомодель оценки Benchmark, связанная статья была включена в текущее международное топ-мероприятие ACL2024.
Больше
  • 3

Perfect World Games и NVIDIA продолжают изучать применение ИИ в игровых сценариях

Согласно последним новостям из официального WeChat Perfect World Games, ранним утром 19 марта по пекинскому времени в SAP Center в Сан-Хосе, штат США, прошла конференция NVIDIA AI Conference (NVIDIA GTC 2024). Генеральный директор NVIDIA Дженсен Хуанг (Jensen Huang) выступил с докладом на тему «Стать свидетелем трансформационного момента ИИ» и рассказал о том, как платформа ускоренных вычислений NVIDIA способствует развитию следующей волны искусственного интеллекта, цифровых двойников, облачных технологий и устойчивых вычислений. GTC также объявила, что терминальная MMORPG-игра "Zhuxian World" от Perfect World Games официально подключена к технологии NVIDIA Audio2Face (генеративный ИИ легко преобразует звук в технологию анимации) и использовала эту конференцию, чтобы показать мировой аудитории результаты объединения с "Zhuxian World", и обе стороны продолжат поддерживать тесный обмен и сотрудничество в различных областях и сценариях ИИ в будущем.
Больше

Meta анонсировала фреймворк audio2photoreal AI, который может генерировать сцены диалогов персонажей, вводя файлы дубляжа

Недавно Meta представила фреймворк искусственного интеллекта под названием audio2photoreal, который способен генерировать серию реалистичных моделей персонажей NPC и автоматически «синхронизировать губы» и «позировать» модели персонажей с помощью существующих файлов закадрового голоса. В официальном отчете об исследовании указывалось, что после получения файла дубляжа фотореалистичный фреймворк Audio2 сначала сгенерирует серию моделей NPC, а затем будет использовать технологию квантования и алгоритм диффузии для генерации модельных действий, в которых технология квантования обеспечивает эталон образца действий для фреймворка, а алгоритм диффузии используется для улучшения эффекта действий персонажей, генерируемых кадром. Сорок три процента оценщиков в контролируемом эксперименте были «полностью удовлетворены» сценами диалогов персонажей, сгенерированными кадром, поэтому исследователи посчитали, что фотореалистичная структура Audio2 способна генерировать «более динамичные и выразительные» движения, чем конкурирующие продукты в отрасли. Сообщается, что исследовательская группа теперь выложила соответствующий код и набор данных в открытый доступ на GitHub.
Больше
  • 1