Недавно Meta представила фреймворк искусственного интеллекта под названием audio2photoreal, который способен генерировать серию реалистичных моделей персонажей NPC и автоматически «синхронизировать губы» и «позировать» модели персонажей с помощью существующих файлов закадрового голоса.
В официальном отчете об исследовании указывалось, что после получения файла дубляжа фотореалистичный фреймворк Audio2 сначала сгенерирует серию моделей NPC, а затем будет использовать технологию квантования и алгоритм диффузии для генерации модельных действий, в которых технология квантования обеспечивает эталон образца действий для фреймворка, а алгоритм диффузии используется для улучшения эффекта действий персонажей, генерируемых кадром.
Сорок три процента оценщиков в контролируемом эксперименте были «полностью удовлетворены» сценами диалогов персонажей, сгенерированными кадром, поэтому исследователи посчитали, что фотореалистичная структура Audio2 способна генерировать «более динамичные и выразительные» движения, чем конкурирующие продукты в отрасли. Сообщается, что исследовательская группа теперь выложила соответствующий код и набор данных в открытый доступ на GitHub.