Tsinghua KEG Lab y Zhipu AI lanzaron conjuntamente CogAgent, un modelo de comprensión de imágenes de gran tamaño

Bit News Tsinghua KEG Lab cooperó recientemente con Zhipu AI para lanzar conjuntamente una nueva generación de CogAgent de modelo grande de comprensión de imágenes. Basado en el CogVLM lanzado anteriormente, el modelo utiliza modalidades visuales en lugar de texto para proporcionar una percepción más completa y directa de la interfaz gráfica de usuario a través de un agente visual de la interfaz gráfica de usuario para la planificación y la toma de decisiones. Se informa que CogAgent puede aceptar una entrada de imagen de alta resolución 1120×1120, con respuesta visual a preguntas, posicionamiento visual (Grounding), GUI Agent y otras capacidades, en 9 listas clásicas de comprensión de imágenes (incluidas VQAv2, STVQA, DocVQA, TextVQA, MM-VET, POPE, etc.) ha logrado el primer resultado en la capacidad general.

Ver originales
El contenido es solo de referencia, no una solicitud u oferta. No se proporciona asesoramiento fiscal, legal ni de inversión. Consulte el Descargo de responsabilidad para obtener más información sobre los riesgos.
  • Recompensa
  • Comentar
  • Compartir
Comentar
0/400
Sin comentarios
  • Anclado
Opere con criptomonedas en cualquier momento y lugar
qrCode
Escanee para descargar la aplicación Gate
Comunidad
Español
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)