Tsinghua KEG Lab ve Zhipu AI, büyük bir görüntü anlama modeli olan CogAgent'ı ortaklaşa başlattı

Bit News Tsinghua KEG Lab kısa süre önce yeni nesil görüntü anlama büyük modeli CogAgent'ı ortaklaşa başlatmak için Zhipu AI ile işbirliği yaptı. Daha önce piyasaya sürülen CogVLM'ye dayanan model, planlama ve karar verme için görsel bir GUI aracısı aracılığıyla GUI arayüzünün daha kapsamlı ve doğrudan algılanmasını sağlamak için metin yerine görsel modaliteler kullanır. CogAgent'ın 1120×1120 yüksek çözünürlüklü görüntü girişini kabul edebildiği, görsel soru yanıtlama, görsel konumlandırma (Topraklama), GUI Agent ve diğer yeteneklerle, 9 klasik görüntü anlama listesinde (VQAv2, STVQA, DocVQA, TextVQA, MM-VET, POPE, vb. dahil) genel yetenekte ilk sonucu elde ettiği bildirildi.

View Original
The content is for reference only, not a solicitation or offer. No investment, tax, or legal advice provided. See Disclaimer for more risks disclosure.
  • Reward
  • Comment
  • Share
Comment
0/400
No comments
  • Pin
Trade Crypto Anywhere Anytime
qrCode
Scan to download Gate app
Community
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)