[DeepSeek lanza el modelo Prover-V2 con 671 mil millones de parámetros] DeepSeek lanzó hoy un nuevo modelo llamado DeepSeek-Prover-V2-671B en Hugging Face, una comunidad de IA de código abierto. Se informa que DeepSeek-Prover-V2-671B utiliza un formato de archivo safetensors más eficiente y admite una variedad de precisiones de cálculo, lo cual es conveniente para un entrenamiento e implementación de modelos más rápidos y que ahorran más recursos, con 671 mil millones de parámetros, o una versión mejorada del modelo matemático Prover-V1.5 lanzado el año pasado. En cuanto a la arquitectura del modelo, el modelo utiliza la arquitectura DeepSeek-V3, adopta el modo MoE (Hybrid Expert) y tiene 61 capas Transformer y 7168 capas ocultas dimensionales. Al mismo tiempo, admite contextos ultralargos, con una incrustación de posición máxima de hasta 163.800, lo que le permite procesar pruebas matemáticas complejas, y se adopta la cuantificación FP8, que puede reducir el tamaño del modelo y mejorar la eficiencia de la inferencia a través de la tecnología de cuantificación. ( de oro diez )
El contenido es solo de referencia, no una solicitud u oferta. No se proporciona asesoramiento fiscal, legal ni de inversión. Consulte el Descargo de responsabilidad para obtener más información sobre los riesgos.
DeepSeek lanza el modelo Prover-V2, con una cantidad de parámetros de 6710 millones.
[DeepSeek lanza el modelo Prover-V2 con 671 mil millones de parámetros] DeepSeek lanzó hoy un nuevo modelo llamado DeepSeek-Prover-V2-671B en Hugging Face, una comunidad de IA de código abierto. Se informa que DeepSeek-Prover-V2-671B utiliza un formato de archivo safetensors más eficiente y admite una variedad de precisiones de cálculo, lo cual es conveniente para un entrenamiento e implementación de modelos más rápidos y que ahorran más recursos, con 671 mil millones de parámetros, o una versión mejorada del modelo matemático Prover-V1.5 lanzado el año pasado. En cuanto a la arquitectura del modelo, el modelo utiliza la arquitectura DeepSeek-V3, adopta el modo MoE (Hybrid Expert) y tiene 61 capas Transformer y 7168 capas ocultas dimensionales. Al mismo tiempo, admite contextos ultralargos, con una incrustación de posición máxima de hasta 163.800, lo que le permite procesar pruebas matemáticas complejas, y se adopta la cuantificación FP8, que puede reducir el tamaño del modelo y mejorar la eficiencia de la inferencia a través de la tecnología de cuantificación. ( de oro diez )