DeepSeek lanza el modelo Prover-V2, con una cantidad de parámetros de 6710 millones.

robot
Generación de resúmenes en curso

[DeepSeek lanza el modelo Prover-V2 con 671 mil millones de parámetros] DeepSeek lanzó hoy un nuevo modelo llamado DeepSeek-Prover-V2-671B en Hugging Face, una comunidad de IA de código abierto. Se informa que DeepSeek-Prover-V2-671B utiliza un formato de archivo safetensors más eficiente y admite una variedad de precisiones de cálculo, lo cual es conveniente para un entrenamiento e implementación de modelos más rápidos y que ahorran más recursos, con 671 mil millones de parámetros, o una versión mejorada del modelo matemático Prover-V1.5 lanzado el año pasado. En cuanto a la arquitectura del modelo, el modelo utiliza la arquitectura DeepSeek-V3, adopta el modo MoE (Hybrid Expert) y tiene 61 capas Transformer y 7168 capas ocultas dimensionales. Al mismo tiempo, admite contextos ultralargos, con una incrustación de posición máxima de hasta 163.800, lo que le permite procesar pruebas matemáticas complejas, y se adopta la cuantificación FP8, que puede reducir el tamaño del modelo y mejorar la eficiencia de la inferencia a través de la tecnología de cuantificación. ( de oro diez )

Ver originales
El contenido es solo de referencia, no una solicitud u oferta. No se proporciona asesoramiento fiscal, legal ni de inversión. Consulte el Descargo de responsabilidad para obtener más información sobre los riesgos.
  • Recompensa
  • Comentar
  • Compartir
Comentar
0/400
Sin comentarios
  • Anclado
Comercie con criptomonedas en cualquier lugar y en cualquier momento
qrCode
Escanee para descargar la aplicación Gate.io
Comunidad
Español
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)