Tsinghua KEG Lab và Zhipu AI cùng ra mắt CogAgent, một mô hình hiểu biết hình ảnh lớn

2023-12-28 08:27:29

Bit News Tsinghua KEG Lab gần đây đã hợp tác với Zhipu AI để cùng nhau ra mắt một thế hệ mới của mô hình lớn hiểu biết hình ảnh CogAgent. Dựa trên CogVLM đã ra mắt trước đó, mô hình sử dụng các phương thức trực quan thay vì văn bản để cung cấp nhận thức toàn diện và trực tiếp hơn về giao diện GUI thông qua tác nhân GUI trực quan để lập kế hoạch và ra quyết định. Được biết, CogAgent có thể chấp nhận đầu vào hình ảnh độ phân giải cao 1120×1120, với trả lời câu hỏi trực quan, định vị trực quan (Grounding), GUI Agent và các khả năng khác, trong 9 danh sách hiểu biết hình ảnh cổ điển (bao gồm VQAv2, STVQA, DocVQA, TextVQA, MM-VET, POPE, v.v.) đã đạt được kết quả đầu tiên về khả năng chung.

VET1.22%

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.

Phần thưởng
Thích
Bình luận
Đăng lại
Chia sẻ

Bình luận

0/400

Không có bình luận

Chủ đề
#July PPI Beats Expectations
27k Phổ biến
#ETH ETFs Top $30B
28k Phổ biến
#Gate Alpha Peak Trading Competition
145k Phổ biến
#Gate Releases August Reserves Report
19k Phổ biến
#BTC Hits New ATH
106k Phổ biến

Ghim

sơ đồ trang web