أطلق Tsinghua KEG Lab و Zhipu الذكاء الاصطناعي بشكل مشترك CogAgent ، وهو نموذج كبير لفهم الصور

2023-12-28 08:27:29

تعاونت Bit News Tsinghua KEG Lab مؤخرا مع Zhipu الذكاء الاصطناعي لإطلاق جيل جديد من CogAgent الكبير لفهم الصور. استنادا إلى CogVLM الذي تم إطلاقه مسبقا ، يستخدم النموذج طرائق مرئية بدلا من النص لتوفير تصور أكثر شمولا ومباشرة لواجهة المستخدم الرسومية من خلال وكيل واجهة المستخدم الرسومية المرئية للتخطيط واتخاذ القرار. يذكر أن CogAgent يمكن أن يقبل إدخال صورة عالية الدقة 1120×1120 ، مع الإجابة على الأسئلة المرئية ، وتحديد المواقع المرئية (التأريض) ، وعامل واجهة المستخدم الرسومية وغيرها من القدرات ، في 9 قوائم فهم الصور الكلاسيكية (بما في ذلك VQAv2 ، STVQA ، DocVQA ، TextVQA ، MM-VET ، POPE ، إلخ) حققت النتيجة الأولى في القدرة العامة.

VET1.06%

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.

أعجبني
إعجاب
تعليق
إعادة النشر
مشاركة

تعليق

0/400

لا توجد تعليقات

الموضوع
#July PPI Beats Expectations
27k درجة الشعبية
#ETH ETFs Top $30B
28k درجة الشعبية
#Gate Alpha Peak Trading Competition
146k درجة الشعبية
#Gate Releases August Reserves Report
19k درجة الشعبية
#BTC Hits New ATH
106k درجة الشعبية

تثبيت

خريطة الموقع