清華大學KEG實驗室和知浦AI聯合推出CogAgent,一個大型圖像理解模型

比特新聞 清華KEG實驗室近日與智浦AI合作,共同推出新一代圖像理解大模型CogAgent。 基於之前推出的CogVLM,該模型使用視覺模態而不是文本,通過可視化GUI代理提供更全面和直接的GUI介面感知,以進行規劃和決策。 據悉,CogAgent可以接受1120×1120高解析度圖像輸入,具備視覺問答、視覺定位(接地)、GUI代理等能力,在9個經典圖像理解清單(包括VQAv2、STVQA、DocVQA、TextVQA、MM-VET、POPE等)中取得了通用能力的第一成績。

查看原文
本頁面內容僅供參考,非招攬或要約,也不提供投資、稅務或法律諮詢。詳見聲明了解更多風險披露。
  • 讚賞
  • 留言
  • 分享
留言
0/400
暫無留言
交易,隨時隨地
qrCode
掃碼下載 Gate APP
社群列表
繁體中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)