清華KEG LabとZhipu AIが共同で大規模画像理解モデル「CogAgent」を発売

Bit News Tsinghua KEG Labは最近、Zhipu AIと協力して、新世代の画像理解大規模モデルCogAgentを共同で発売しました。 このモデルは、以前に発表されたCogVLMに基づいており、テキストの代わりに視覚的なモダリティを使用して、計画と意思決定のための視覚的なGUIエージェントを介してGUIインターフェイスのより包括的で直接的な認識を提供します。 CogAgentは、1120×1120高解像度画像入力を受け入れることができ、視覚的な質問応答、視覚的なポジショニング(グラウンディング)、GUIエージェント、およびその他の機能で、9つの古典的な画像理解リスト(VQAv2、STVQA、DocVQA、TextVQA、MM-VET、POPEなどを含む)で、一般的な機能で最初の結果を達成したと報告されています。

原文表示
内容は参考用であり、勧誘やオファーではありません。 投資、税務、または法律に関するアドバイスは提供されません。 リスク開示の詳細については、免責事項 を参照してください。
  • 報酬
  • コメント
  • 共有
コメント
0/400
コメントなし
  • ピン
いつでもどこでも暗号資産取引
qrCode
スキャンしてGateアプリをダウンロード
コミュニティ
日本語
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)