Tsinghua KEG Lab e Zhipu AI lançaram conjuntamente o CogAgent, um modelo de compreensão de imagem grande

Bit News Tsinghua KEG Lab recentemente cooperou com Zhipu AI para lançar em conjunto uma nova geração de compreensão de imagem modelo grande CogAgent. Baseado no CogVLM lançado anteriormente, o modelo usa modalidades visuais em vez de texto para fornecer uma perceção mais abrangente e direta da interface GUI através de um agente GUI visual para planejamento e tomada de decisão. É relatado que o CogAgent pode aceitar entrada de imagem de alta resolução 1120×1120, com resposta visual a perguntas, posicionamento visual (Grounding), GUI Agent e outros recursos, em 9 listas clássicas de compreensão de imagem (incluindo VQAv2, STVQA, DocVQA, TextVQA, MM-VET, POPE, etc.) alcançou o primeiro resultado em habilidade geral.

Ver original
O conteúdo serve apenas de referência e não constitui uma solicitação ou oferta. Não é prestado qualquer aconselhamento em matéria de investimento, fiscal ou jurídica. Consulte a Declaração de exoneração de responsabilidade para obter mais informações sobre os riscos.
  • Recompensa
  • Comentar
  • Partilhar
Comentar
0/400
Nenhum comentário
  • Pino
Negocie cripto em qualquer lugar e a qualquer hora
qrCode
Digitalizar para transferir a aplicação Gate
Novidades
Português (Portugal)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)