DeepSeek випустив модель Prover-V2 з кількістю параметрів до 6710 мільярдів

robot
Генерація анотацій у процесі

【DeepSeek випустив модель Prover-V2, кількість параметрів досягла 6710 мільярдів】DeepSeek сьогодні на AI відкритому вихідному коді спільноті Hugging Face опублікував нову модель під назвою DeepSeek-Prover-V2-671B. Згідно з інформацією, DeepSeek-Prover-V2-671B використовує більш ефективний формат файлів safetensors і підтримує різні обчислювальні точності, що дозволяє моделі швидше і економніше тренуватися та розгортатися, кількість параметрів досягає 6710 мільярдів, що може бути оновленою версією математичної моделі Prover-V1.5, випущеної минулого року. У архітектурі моделі ця модель використовує архітектуру DeepSeek-V3, застосовуючи режим MoE (змішаних експертів), має 61 шар Transformer, 7168-розмірний прихований шар. Одночасно підтримує наддовгий контекст, максимальне позиційне вбудовування досягає 163800, що дозволяє їй обробляти складні математичні доведення, а також використовує FP8 квантування, що дозволяє зменшити розмір моделі та підвищити ефективність висновків. ( Jin10 )

Переглянути оригінал
Контент має виключно довідковий характер і не є запрошенням до участі або пропозицією. Інвестиційні, податкові чи юридичні консультації не надаються. Перегляньте Відмову від відповідальності , щоб дізнатися більше про ризики.
  • Нагородити
  • Прокоментувати
  • Поділіться
Прокоментувати
0/400
Немає коментарів
  • Закріпити