Bit News Tsinghua KEG Lab cooperó recientemente con Zhipu AI para lanzar conjuntamente una nueva generación de CogAgent de modelo grande de comprensión de imágenes. Basado en el CogVLM lanzado anteriormente, el modelo utiliza modalidades visuales en lugar de texto para proporcionar una percepción más completa y directa de la interfaz gráfica de usuario a través de un agente visual de la interfaz gráfica de usuario para la planificación y la toma de decisiones. Se informa que CogAgent puede aceptar una entrada de imagen de alta resolución 1120×1120, con respuesta visual a preguntas, posicionamiento visual (Grounding), GUI Agent y otras capacidades, en 9 listas clásicas de comprensión de imágenes (incluidas VQAv2, STVQA, DocVQA, TextVQA, MM-VET, POPE, etc.) ha logrado el primer resultado en la capacidad general.
El contenido es solo de referencia, no una solicitud u oferta. No se proporciona asesoramiento fiscal, legal ni de inversión. Consulte el Descargo de responsabilidad para obtener más información sobre los riesgos.
Tsinghua KEG Lab y Zhipu AI lanzaron conjuntamente CogAgent, un modelo de comprensión de imágenes de gran tamaño
Bit News Tsinghua KEG Lab cooperó recientemente con Zhipu AI para lanzar conjuntamente una nueva generación de CogAgent de modelo grande de comprensión de imágenes. Basado en el CogVLM lanzado anteriormente, el modelo utiliza modalidades visuales en lugar de texto para proporcionar una percepción más completa y directa de la interfaz gráfica de usuario a través de un agente visual de la interfaz gráfica de usuario para la planificación y la toma de decisiones. Se informa que CogAgent puede aceptar una entrada de imagen de alta resolución 1120×1120, con respuesta visual a preguntas, posicionamiento visual (Grounding), GUI Agent y otras capacidades, en 9 listas clásicas de comprensión de imágenes (incluidas VQAv2, STVQA, DocVQA, TextVQA, MM-VET, POPE, etc.) ha logrado el primer resultado en la capacidad general.