Search results for "AUDIO"

Kimi, yeni genel ses temel modeli Kimi-Audio'yu tanıttı.

Jin10 verileri 26 Nisan'da, bugün Kimi yeni bir Açık Kaynak projesi - tamamen yeni genel ses temel modeli Kimi-Audio'yu duyurdu. Tanıtıma göre, bu model sesli tanıma, ses anlama, sesin metne dönüştürülmesi, sesli diyalog gibi çeşitli görevleri destekliyor.
More

阿里通义Açık Kaynak音频语言模型Qwen2-Audio,相关论文入选顶会ACL 2024

Gate.io 13 Ağustos tarihinde bildirdiğine göre, Alibaba'nın Qwen2 serisi Açık Kaynak ailesi, metin girişi olmadan doğrudan sesli soru-cevap yapabilen Qwen2-Audio adlı yeni bir sesli dil modeli ekledi. Qwen2-Audio, kullanıcıların sesli sinyalleri, ses, doğal sesler, müzik vb. dahil olmak üzere girişlerini anlama ve analiz etme yeteneğine sahiptir. Bu model, birçok yetkili değerlendirme testinde önceki en iyi modeli önemli ölçüde aşmıştır. Gate.io ekibi ayrıca, yeni bir ses anlama modeli olan Benchmark'u tanıttı ve ilgili makale bu hafta düzenlenen uluslararası bir konferans olan ACL2024'e kabul edildi.
More
  • 3

Perfect World Games ve NVIDIA, oyun senaryolarında yapay zeka uygulamasını keşfetmeye devam ediyor

Perfect World Games'in resmi WeChat'inden gelen en son haberlere göre, Pekin saatiyle 19 Mart sabahı erken saatlerde ABD'nin Kaliforniya eyaletinin San Jose kentindeki SAP Center'da NVIDIA AI Konferansı (NVIDIA GTC 2024) düzenlendi. NVIDIA CEO'su Jensen Huang, "Yapay Zekanın Dönüştürücü Anına Tanık Olmak" konulu bir konuşma yaptı ve NVIDIA'nın hızlandırılmış bilgi işlem platformunun bir sonraki yapay zeka, dijital ikizler, bulut teknolojileri ve sürdürülebilir bilgi işlem dalgasını nasıl yönlendirdiğini paylaştı. GTC ayrıca Perfect World Games'in Xianxia MMORPG terminal oyunu "Zhuxian World"ün resmi olarak NVIDIA'nın Audio2Face teknolojisine (üretken yapay zeka, sesi kolayca animasyon teknolojisine dönüştürür) bağlandığını ve bu konferansı küresel izleyiciye "Zhuxian World" ile kombinasyonun sonuçlarını göstermek için kullandığını duyurdu ve iki taraf, gelecekte yapay zekanın birden fazla alanında ve senaryosunda yakın alışverişi ve işbirliğini sürdürmeye devam edecek.
More

Meta, dublaj dosyalarını girerek karakter diyalog sahneleri oluşturabilen audio2photoreal AI çerçevesini duyurdu

Meta kısa süre önce, bir dizi gerçekçi NPC karakter modeli oluşturabilen ve mevcut seslendirme dosyalarının yardımıyla karakter modellerini otomatik olarak "dudak senkronizasyonu" yapabilen ve "poz verebilen" audio2photoreal adlı bir yapay zeka çerçevesini tanıttı. Resmi araştırma raporu, dublaj dosyasını aldıktan sonra, Audio2 fotoreal çerçevesinin önce bir dizi NPC modeli oluşturacağına ve daha sonra niceleme teknolojisinin çerçeve için eylem örneği referansı sağladığı model eylemleri oluşturmak için niceleme teknolojisini ve difüzyon algoritmasını kullanacağına dikkat çekti ve çerçeve tarafından oluşturulan karakter eylemlerinin etkisini iyileştirmek için difüzyon algoritması kullanılır. Kontrollü deneydeki değerlendiricilerin yüzde kırk üçü, çerçeve tarafından oluşturulan karakter diyalog sahnelerinden "güçlü bir şekilde memnundu", bu nedenle araştırmacılar Audio2 fotogerçekçi çerçevesinin "daha dinamik ve etkileyici" hareketler üretebildiğini hissettiler. Araştırma ekibinin artık ilgili kodu ve veri setini GitHub'da herkese açık hale getirdiği bildiriliyor.
More
  • 1