أطلق Tsinghua KEG Lab و Zhipu الذكاء الاصطناعي بشكل مشترك CogAgent ، وهو نموذج كبير لفهم الصور

تعاونت Bit News Tsinghua KEG Lab مؤخرا مع Zhipu الذكاء الاصطناعي لإطلاق جيل جديد من CogAgent الكبير لفهم الصور. استنادا إلى CogVLM الذي تم إطلاقه مسبقا ، يستخدم النموذج طرائق مرئية بدلا من النص لتوفير تصور أكثر شمولا ومباشرة لواجهة المستخدم الرسومية من خلال وكيل واجهة المستخدم الرسومية المرئية للتخطيط واتخاذ القرار. يذكر أن CogAgent يمكن أن يقبل إدخال صورة عالية الدقة 1120×1120 ، مع الإجابة على الأسئلة المرئية ، وتحديد المواقع المرئية (التأريض) ، وعامل واجهة المستخدم الرسومية وغيرها من القدرات ، في 9 قوائم فهم الصور الكلاسيكية (بما في ذلك VQAv2 ، STVQA ، DocVQA ، TextVQA ، MM-VET ، POPE ، إلخ) حققت النتيجة الأولى في القدرة العامة.

شاهد النسخة الأصلية
المحتوى هو للمرجعية فقط، وليس دعوة أو عرضًا. لا يتم تقديم أي مشورة استثمارية أو ضريبية أو قانونية. للمزيد من الإفصاحات حول المخاطر، يُرجى الاطلاع على إخلاء المسؤولية.
  • أعجبني
  • تعليق
  • مشاركة
تعليق
0/400
لا توجد تعليقات
  • تثبيت