【DeepSeek випустив модель Prover-V2, кількість параметрів досягла 6710 мільярдів】DeepSeek сьогодні на AI відкритому вихідному коді спільноті Hugging Face опублікував нову модель під назвою DeepSeek-Prover-V2-671B. Згідно з інформацією, DeepSeek-Prover-V2-671B використовує більш ефективний формат файлів safetensors і підтримує різні обчислювальні точності, що дозволяє моделі швидше і економніше тренуватися та розгортатися, кількість параметрів досягає 6710 мільярдів, що може бути оновленою версією математичної моделі Prover-V1.5, випущеної минулого року. У архітектурі моделі ця модель використовує архітектуру DeepSeek-V3, застосовуючи режим MoE (змішаних експертів), має 61 шар Transformer, 7168-розмірний прихований шар. Одночасно підтримує наддовгий контекст, максимальне позиційне вбудовування досягає 163800, що дозволяє їй обробляти складні математичні доведення, а також використовує FP8 квантування, що дозволяє зменшити розмір моделі та підвищити ефективність висновків. ( Jin10 )
Контент має виключно довідковий характер і не є запрошенням до участі або пропозицією. Інвестиційні, податкові чи юридичні консультації не надаються. Перегляньте Відмову від відповідальності , щоб дізнатися більше про ризики.
DeepSeek випустив модель Prover-V2 з кількістю параметрів до 6710 мільярдів
【DeepSeek випустив модель Prover-V2, кількість параметрів досягла 6710 мільярдів】DeepSeek сьогодні на AI відкритому вихідному коді спільноті Hugging Face опублікував нову модель під назвою DeepSeek-Prover-V2-671B. Згідно з інформацією, DeepSeek-Prover-V2-671B використовує більш ефективний формат файлів safetensors і підтримує різні обчислювальні точності, що дозволяє моделі швидше і економніше тренуватися та розгортатися, кількість параметрів досягає 6710 мільярдів, що може бути оновленою версією математичної моделі Prover-V1.5, випущеної минулого року. У архітектурі моделі ця модель використовує архітектуру DeepSeek-V3, застосовуючи режим MoE (змішаних експертів), має 61 шар Transformer, 7168-розмірний прихований шар. Одночасно підтримує наддовгий контекст, максимальне позиційне вбудовування досягає 163800, що дозволяє їй обробляти складні математичні доведення, а також використовує FP8 квантування, що дозволяє зменшити розмір моделі та підвищити ефективність висновків. ( Jin10 )