Bit News Tsinghua KEG Lab gần đây đã hợp tác với Zhipu AI để cùng nhau ra mắt một thế hệ mới của mô hình lớn hiểu biết hình ảnh CogAgent. Dựa trên CogVLM đã ra mắt trước đó, mô hình sử dụng các phương thức trực quan thay vì văn bản để cung cấp nhận thức toàn diện và trực tiếp hơn về giao diện GUI thông qua tác nhân GUI trực quan để lập kế hoạch và ra quyết định. Được biết, CogAgent có thể chấp nhận đầu vào hình ảnh độ phân giải cao 1120×1120, với trả lời câu hỏi trực quan, định vị trực quan (Grounding), GUI Agent và các khả năng khác, trong 9 danh sách hiểu biết hình ảnh cổ điển (bao gồm VQAv2, STVQA, DocVQA, TextVQA, MM-VET, POPE, v.v.) đã đạt được kết quả đầu tiên về khả năng chung.
Nội dung chỉ mang tính chất tham khảo, không phải là lời chào mời hay đề nghị. Không cung cấp tư vấn về đầu tư, thuế hoặc pháp lý. Xem Tuyên bố miễn trừ trách nhiệm để biết thêm thông tin về rủi ro.
Tsinghua KEG Lab và Zhipu AI cùng ra mắt CogAgent, một mô hình hiểu biết hình ảnh lớn
Bit News Tsinghua KEG Lab gần đây đã hợp tác với Zhipu AI để cùng nhau ra mắt một thế hệ mới của mô hình lớn hiểu biết hình ảnh CogAgent. Dựa trên CogVLM đã ra mắt trước đó, mô hình sử dụng các phương thức trực quan thay vì văn bản để cung cấp nhận thức toàn diện và trực tiếp hơn về giao diện GUI thông qua tác nhân GUI trực quan để lập kế hoạch và ra quyết định. Được biết, CogAgent có thể chấp nhận đầu vào hình ảnh độ phân giải cao 1120×1120, với trả lời câu hỏi trực quan, định vị trực quan (Grounding), GUI Agent và các khả năng khác, trong 9 danh sách hiểu biết hình ảnh cổ điển (bao gồm VQAv2, STVQA, DocVQA, TextVQA, MM-VET, POPE, v.v.) đã đạt được kết quả đầu tiên về khả năng chung.