Tsinghua KEG Lab ve Zhipu AI, büyük bir görüntü anlama modeli olan CogAgent'ı ortaklaşa başlattı

2023-12-28 08:27:29

Bit News Tsinghua KEG Lab kısa süre önce yeni nesil görüntü anlama büyük modeli CogAgent'ı ortaklaşa başlatmak için Zhipu AI ile işbirliği yaptı. Daha önce piyasaya sürülen CogVLM'ye dayanan model, planlama ve karar verme için görsel bir GUI aracısı aracılığıyla GUI arayüzünün daha kapsamlı ve doğrudan algılanmasını sağlamak için metin yerine görsel modaliteler kullanır. CogAgent'ın 1120×1120 yüksek çözünürlüklü görüntü girişini kabul edebildiği, görsel soru yanıtlama, görsel konumlandırma (Topraklama), GUI Agent ve diğer yeteneklerle, 9 klasik görüntü anlama listesinde (VQAv2, STVQA, DocVQA, TextVQA, MM-VET, POPE, vb. dahil) genel yetenekte ilk sonucu elde ettiği bildirildi.

VET1.06%

View Original

This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.

Reward
like
Comment
Repost
Share

Comment

0/400

No comments

Topic
#July PPI Beats Expectations
27k Popularity
#ETH ETFs Top $30B
28k Popularity
#Gate Alpha Peak Trading Competition
146k Popularity
#Gate Releases August Reserves Report
19k Popularity
#BTC Hits New ATH
106k Popularity

sitemap