Bit News Tsinghua KEG Labは最近、Zhipu AIと協力して、新世代の画像理解大規模モデルCogAgentを共同で発売しました。 このモデルは、以前に発表されたCogVLMに基づいており、テキストの代わりに視覚的なモダリティを使用して、計画と意思決定のための視覚的なGUIエージェントを介してGUIインターフェイスのより包括的で直接的な認識を提供します。 CogAgentは、1120×1120高解像度画像入力を受け入れることができ、視覚的な質問応答、視覚的なポジショニング(グラウンディング)、GUIエージェント、およびその他の機能で、9つの古典的な画像理解リスト(VQAv2、STVQA、DocVQA、TextVQA、MM-VET、POPEなどを含む)で、一般的な機能で最初の結果を達成したと報告されています。
清華KEG LabとZhipu AIが共同で大規模画像理解モデル「CogAgent」を発売
Bit News Tsinghua KEG Labは最近、Zhipu AIと協力して、新世代の画像理解大規模モデルCogAgentを共同で発売しました。 このモデルは、以前に発表されたCogVLMに基づいており、テキストの代わりに視覚的なモダリティを使用して、計画と意思決定のための視覚的なGUIエージェントを介してGUIインターフェイスのより包括的で直接的な認識を提供します。 CogAgentは、1120×1120高解像度画像入力を受け入れることができ、視覚的な質問応答、視覚的なポジショニング(グラウンディング)、GUIエージェント、およびその他の機能で、9つの古典的な画像理解リスト(VQAv2、STVQA、DocVQA、TextVQA、MM-VET、POPEなどを含む)で、一般的な機能で最初の結果を達成したと報告されています。