Tsinghua KEG Lab e Zhipu AI lançaram conjuntamente o CogAgent, um modelo de compreensão de imagem grande

2023-12-28 08:27:29

Bit News Tsinghua KEG Lab recentemente cooperou com Zhipu AI para lançar em conjunto uma nova geração de compreensão de imagem modelo grande CogAgent. Baseado no CogVLM lançado anteriormente, o modelo usa modalidades visuais em vez de texto para fornecer uma perceção mais abrangente e direta da interface GUI através de um agente GUI visual para planejamento e tomada de decisão. É relatado que o CogAgent pode aceitar entrada de imagem de alta resolução 1120×1120, com resposta visual a perguntas, posicionamento visual (Grounding), GUI Agent e outros recursos, em 9 listas clássicas de compreensão de imagem (incluindo VQAv2, STVQA, DocVQA, TextVQA, MM-VET, POPE, etc.) alcançou o primeiro resultado em habilidade geral.

VET1.22%

Ver original

Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.

Recompensa
curtir
Comentário
Repostar
Compartilhar

Comentário

0/400

Sem comentários

Tema
#July PPI Beats Expectations
27k Popularidade
#ETH ETFs Top $30B
28k Popularidade
#Gate Alpha Peak Trading Competition
146k Popularidade
#Gate Releases August Reserves Report
19k Popularidade
#BTC Hits New ATH
106k Popularidade

Marcar

sitemap