Bit News Tsinghua KEG Lab нещодавно співпрацювала з Zhipu AI, щоб спільно запустити нове покоління великої моделі CogAgent, що розуміє зображення. Заснована на раніше запущеному CogVLM, модель використовує візуальні модальності замість тексту, щоб забезпечити більш повне і безпосереднє сприйняття інтерфейсу графічного інтерфейсу за допомогою візуального графічного агента для планування і прийняття рішень. Повідомляється, що CogAgent може приймати вхідні дані зображення з високою роздільною здатністю 1120×1120, з візуальними відповідями на питання, візуальним позиціонуванням (Grounding), GUI Agent та іншими можливостями, в 9 класичних списках розуміння зображень (включаючи VQAv2, STVQA, DocVQA, TextVQA, MM-VET, POPE і т.д.) досяг першого результату в загальних здібностях.
Контент має виключно довідковий характер і не є запрошенням до участі або пропозицією. Інвестиційні, податкові чи юридичні консультації не надаються. Перегляньте Відмову від відповідальності , щоб дізнатися більше про ризики.
Tsinghua KEG Lab і Zhipu AI спільно запустили CogAgent, велику модель для розуміння зображень
Bit News Tsinghua KEG Lab нещодавно співпрацювала з Zhipu AI, щоб спільно запустити нове покоління великої моделі CogAgent, що розуміє зображення. Заснована на раніше запущеному CogVLM, модель використовує візуальні модальності замість тексту, щоб забезпечити більш повне і безпосереднє сприйняття інтерфейсу графічного інтерфейсу за допомогою візуального графічного агента для планування і прийняття рішень. Повідомляється, що CogAgent може приймати вхідні дані зображення з високою роздільною здатністю 1120×1120, з візуальними відповідями на питання, візуальним позиціонуванням (Grounding), GUI Agent та іншими можливостями, в 9 класичних списках розуміння зображень (включаючи VQAv2, STVQA, DocVQA, TextVQA, MM-VET, POPE і т.д.) досяг першого результату в загальних здібностях.