Tsinghua KEG Lab dan Zhipu AI bersama-sama meluncurkan CogAgent, model pemahaman gambar besar

2023-12-28 08:27:29

Bit News Tsinghua KEG Lab baru-baru ini bekerja sama dengan Zhipu AI untuk bersama-sama meluncurkan generasi baru pemahaman gambar model besar CogAgent. Berdasarkan CogVLM yang diluncurkan sebelumnya, model ini menggunakan modalitas visual alih-alih teks untuk memberikan persepsi yang lebih komprehensif dan langsung tentang antarmuka GUI melalui agen GUI visual untuk perencanaan dan pengambilan keputusan. Dilaporkan bahwa CogAgent dapat menerima input gambar resolusi tinggi 1120×1120, dengan jawaban pertanyaan visual, pemosisian visual (Pentanahan), Agen GUI dan kemampuan lainnya, dalam 9 daftar pemahaman gambar klasik (termasuk VQAv2, STVQA, DocVQA, TextVQA, MM-VET, Paus, dll.) telah mencapai hasil pertama dalam kemampuan umum.

VET1.22%

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

Hadiah
suka
Komentar
Posting ulang
Bagikan

Komentar

0/400

Tidak ada komentar

Topik
#July PPI Beats Expectations
26932 Popularitas
#ETH ETFs Top $30B
27181 Popularitas
#Gate Alpha Peak Trading Competition
144491 Popularitas
#Gate Releases August Reserves Report
18074 Popularitas
#BTC Hits New ATH
105364 Popularitas

Sematkan

peta situs