Bit News Tsinghua KEG Lab kısa süre önce yeni nesil görüntü anlama büyük modeli CogAgent'ı ortaklaşa başlatmak için Zhipu AI ile işbirliği yaptı. Daha önce piyasaya sürülen CogVLM'ye dayanan model, planlama ve karar verme için görsel bir GUI aracısı aracılığıyla GUI arayüzünün daha kapsamlı ve doğrudan algılanmasını sağlamak için metin yerine görsel modaliteler kullanır. CogAgent'ın 1120×1120 yüksek çözünürlüklü görüntü girişini kabul edebildiği, görsel soru yanıtlama, görsel konumlandırma (Topraklama), GUI Agent ve diğer yeteneklerle, 9 klasik görüntü anlama listesinde (VQAv2, STVQA, DocVQA, TextVQA, MM-VET, POPE, vb. dahil) genel yetenekte ilk sonucu elde ettiği bildirildi.
The content is for reference only, not a solicitation or offer. No investment, tax, or legal advice provided. See Disclaimer for more risks disclosure.
Tsinghua KEG Lab ve Zhipu AI, büyük bir görüntü anlama modeli olan CogAgent'ı ortaklaşa başlattı
Bit News Tsinghua KEG Lab kısa süre önce yeni nesil görüntü anlama büyük modeli CogAgent'ı ortaklaşa başlatmak için Zhipu AI ile işbirliği yaptı. Daha önce piyasaya sürülen CogVLM'ye dayanan model, planlama ve karar verme için görsel bir GUI aracısı aracılığıyla GUI arayüzünün daha kapsamlı ve doğrudan algılanmasını sağlamak için metin yerine görsel modaliteler kullanır. CogAgent'ın 1120×1120 yüksek çözünürlüklü görüntü girişini kabul edebildiği, görsel soru yanıtlama, görsel konumlandırma (Topraklama), GUI Agent ve diğer yeteneklerle, 9 klasik görüntü anlama listesinde (VQAv2, STVQA, DocVQA, TextVQA, MM-VET, POPE, vb. dahil) genel yetenekte ilk sonucu elde ettiği bildirildi.