清華KEG LabとZhipu AIが共同で大規模画像理解モデル「CogAgent」を発売

2023-12-28 08:27:29

Bit News Tsinghua KEG Labは最近、Zhipu AIと協力して、新世代の画像理解大規模モデルCogAgentを共同で発売しました。このモデルは、以前に発表されたCogVLMに基づいており、テキストの代わりに視覚的なモダリティを使用して、計画と意思決定のための視覚的なGUIエージェントを介してGUIインターフェイスのより包括的で直接的な認識を提供します。 CogAgentは、1120×1120高解像度画像入力を受け入れることができ、視覚的な質問応答、視覚的なポジショニング(グラウンディング)、GUIエージェント、およびその他の機能で、9つの古典的な画像理解リスト(VQAv2、STVQA、DocVQA、TextVQA、MM-VET、POPEなどを含む)で、一般的な機能で最初の結果を達成したと報告されています。

VET1.22%

原文表示

このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております（表明・保証をするものではありません）。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。

報酬
いいね
コメント
リポスト
共有

0/400

コメントなし

トピック
#July PPI Beats Expectations
27k 人気度
#ETH ETFs Top $30B
28k 人気度
#Gate Alpha Peak Trading Competition
145k 人気度
#Gate Releases August Reserves Report
19k 人気度
#BTC Hits New ATH
106k 人気度

ピン

サイトマップ