Revolución de GPU: Cómo hacemos que Ethereum sea 1000 veces más rápido con zk-SNARKs

2025-05-29 05:57:02

Este artículo analizará un avance tecnológico clave: a través de la combinación de GPU de alto rendimiento y zk-SNARKs, estamos aumentando la eficiencia operativa de Ethereum cientos e incluso miles de veces. Esto no solo resuelve el cuello de botella de rendimiento que ha existido en la cadena de bloques durante mucho tiempo, sino que también proporciona un camino técnico viable para la infraestructura del futuro Web3.

Si alguna vez te has preguntado: ¿por qué Ethereum funciona lentamente y los costos de transacción son tan altos? ¿O estás interesado en los factores clave que impulsan la próxima generación de tecnología de cadena de bloques? Entonces, este artículo te proporcionará respuestas claras.

Esencia del problema: ¿Por qué la cadena de bloques es como una autopista congestionada?

Se puede imaginar Ethereum como una autopista. Hoy en día, todos los usuarios y aplicaciones están compitiendo por los recursos limitados de los carriles, lo que provoca congestión en la red, procesamiento lento de transacciones y altas tarifas de Gas.

Las soluciones tradicionales se reducen a dos tipos:

Reparar más carriles —— es decir, construir una red de Capa 2 (por ejemplo, Rollups)
Hacer que los vehículos sean más pequeños —— es decir, comprimir los datos de la transacción

Pero, ¿y si hubiera una forma de "teletransportar" los vehículos en lugar de seguir atascados en el carril? Esta es precisamente la revolución del paradigma que traen los zk-SNARKs. Su idea central es: no es necesario transmitir todos los datos de la transacción en sí, sino que se puede verificar la autenticidad de la transacción generando una prueba matemática. En otras palabras, ya no necesitamos que cada vehículo pase por la autopista, sino que podemos verificar directamente "estos vehículos efectivamente llegaron a su destino". Esto no solo reduce la carga de transmisión de datos, sino que también permite la compatibilidad de "alto rendimiento + alta seguridad + verificación sin confianza".

The Verge: La próxima evolución de Ethereum

Ethereum actualmente está impulsando un ambicioso plan técnico: The Verge, que puedes entender como el "plan de adelgazamiento" de Ethereum. El objetivo es: reducir drásticamente la barrera de entrada para ejecutar nodos de Ethereum, haciéndolo tan sencillo como ejecutar una aplicación en un teléfono móvil. En el futuro, cualquier persona podrá unirse fácilmente a la red de Ethereum sin tener que depender de una computadora de juegos de alto rendimiento.

Pero detrás de este plan hay un desafío tecnológico clave: necesita completar millones de cálculos matemáticos complejos en un tiempo extremadamente corto.

Esta es precisamente la dirección de innovación en la que se centra el equipo de Polyhedra: cómo utilizar GPU para acelerar el cálculo ZK a gran escala, mejorando significativamente la eficiencia de ejecución mientras se garantiza la seguridad de la verificación.

Desafíos técnicos: Este conjunto de datos revolucionará tu comprensión

Para entender la complejidad a la que nos enfrentamos, aquí está la escala real de las operaciones en cadena actuales de Ethereum:

Verificación de Consenso: Cada bloque contiene aproximadamente 90 millones de cálculos de hash SHA 2-256, así como 2,048 verificaciones de firmas digitales BLS.
Pruebas de transición de estado (State Transition Proofs): Cada bloque requiere aproximadamente 500,000 operaciones de hash Keccak.
Cuello de botella actual:
Los probadores de cero conocimiento basados en CPU actualmente solo pueden procesar alrededor de 2 millones de cálculos de hash Poseidon por segundo.

El verdadero desafío radica en que necesitamos utilizar la tecnología de zk-SNARKs para llevar a cabo todos los cálculos mencionados, lo que sin duda aumenta significativamente la complejidad computacional.

Punto de quiebre: La revolución del poder de cálculo de la GPU

Como todos saben, las GPU son el favorito de los jugadores y los ingenieros de IA. Pero en realidad, estas unidades de procesamiento gráfico muestran una capacidad muy superior a la de la CPU al realizar cálculos matemáticos de gran paralelismo necesarios para zk-SNARKs.

En Polyhedra, hemos optimizado el sistema de pruebas ZK para GPU y hemos logrado indicadores de rendimiento impactantes y revolucionarios:

Mejoras de rendimiento, superando las expectativas.

Aceleración de operaciones matemáticas básicas (campo de Mersenne 31) 362 veces
Aceleración de operaciones criptográficas complejas (curva elíptica BN 254) de hasta 2826 veces
Un cálculo de zk-SNARKs que originalmente tardaba 21 minutos, ahora se ha comprimido a solo 450 milisegundos.

En otras palabras, esto equivale a que tu tiempo de conmutación en las horas pico de la mañana se reduce de 20 minutos a menos de medio segundo. No se trata de una optimización gradual, sino de un salto computacional a nivel de paradigma.

¿Por qué este avance es relevante para ti?

Menores costos de transacción: una velocidad de generación de pruebas más rápida significa que el costo de cálculo general disminuye significativamente, lo que a su vez conlleva tarifas de Gas más bajas. Beneficio mutuo para los usuarios y la red.
Mayor garantía de seguridad: ¿Recuerdas que mencionamos que el presupuesto de seguridad de Ethereum supera los 40 millones de dólares anuales? A través de nuestra tecnología, los nodos ligeros también pueden verificar fácilmente toda la cadena de consenso de Ethereum, disfrutando de una garantía de seguridad a nivel de mainnet, sin necesidad de grandes gastos de recursos.
La ejecución más generalizada de nodos, los teléfonos móviles también pueden ejecutar Ethereum: nuestra continua optimización en rendimiento y eficiencia está haciendo posible la ejecución de nodos de Ethereum en dispositivos comunes. En el futuro, validar los datos de la cadena de bloques podría completarse solo con un teléfono móvil.

Núcleo técnico: ¿Cómo lo hicimos?

1. Diseño nativo de GPU: protocolo Sumcheck optimizado por CUDA

Nuestra implementación de Sumcheck basada en CUDA aprovecha al máximo las ventajas del cálculo paralelo de la GPU:

Diseño de núcleos CUDA personalizados para operaciones en cuerpos numéricos (suma, multiplicación, potencia)
Utilizando el modo de acceso a memoria por fusión, se maximiza la utilización del ancho de banda de la GPU (el ancho de banda medido del RTX 4090 alcanza hasta 1008 GB/s)
Utilizar primitivas de nivel warp para lograr operaciones de reducción eficientes.

Esta personalización a este nivel permite que el protocolo Sumcheck ya no esté limitado por el cuello de botella de la serialización de la CPU.

La memoria es el rey: optimización de cuellos de botella de ancho de bandaLa visión tradicional es que el cuello de botella informático de ZK Prover radica en la potencia de cálculo, pero nuestra evidencia empírica muestra que Sumcheck es un cuello de botella de ancho de banda de memoria típico:

Análisis de rendimiento de memoria: la tasa de uso de ancho de banda alcanza el 95% del límite teórico +
Optimización de estructuras de datos: uso de Structure-of-Arrays (SoA) en lugar de la estructura tradicional Array-of-Structures (AoS)
Mejora en la utilización de la unidad SM: optimizando la configuración del bloque de hilos para lograr la mejor tasa de ocupación del hardware

Al resolver el problema de la memoria de ancho de banda, hemos convertido el cálculo ZK en una verdadera tarea de flujo eficiente.

3. Estrategia de optimización personalizada para diferentes dominios numéricos

Diferentes campos criptográficos tienen diferentes características operativas, hemos personalizado rutas de optimización para cada campo principal:

Mersenne 31 (M 31): optimización de enteros de 31 bits, estructura de operación modular eficiente
M 31 ext 3: Soporte para campos extendidos, equilibrando la expansión polinómica y el bajo costo
BN 254: Multiplicador personalizado basado en el algoritmo de Montgomery, diseñado específicamente para campos de enteros grandes de 254 bits.

Esta optimización de bajo nivel altamente específica hace que nuestro ZK Prover sea tanto versátil como extremadamente eficiente.

Desglose de datos de rendimiento: dónde ocurrió la optimización

No solo hemos logrado ser "mucho más rápidos", sino que hemos llevado el rendimiento de ZK a alturas sin precedentes. Los siguientes son los datos de rendimiento medidos:

Revelación de la arquitectura técnica: la verdad bajo el capó

GKR Protocolo: Núcleo acelerado

Nuestra optimización acelerada se centra en el protocolo GKR (Goldwasser-Kalai-Rothblum), que incluye lo siguiente:

Capa GKR lineal: utilizada para manejar puertas de adición y multiplicación
Protocolo Sumcheck: el cuello de botella en el rendimiento, que ocupa casi el 50% del tiempo total de cálculo de la CPU.
Etapa de evaluación de polinomios: Se redujo el tiempo de cálculo en la GPU de 8.4 segundos a 9.5 milisegundos

Diseño detallado del núcleo de GPU

Fase uno: Evaluación polinómica

Calcular en paralelo en 2 ^n puntos
Utilizar el coeficiente de caché de memoria compartida para aumentar la velocidad de acceso
Implementar operaciones de reducción eficientes mediante warp shuffle
Segunda fase: generación de desafíos
Ejecutar operaciones de hash Fiat-Shamir en el interior de la GPU, evitando cambios frecuentes entre CPU y GPU
Reducir la latencia de comunicación entre la CPU y la GPU

Optimización de la transmisión de memoria: conectar el "último kilómetro" del flujo de datos

Hemos realizado optimizaciones sistemáticas en la interacción CPU-GPU para garantizar que el ancho de banda no se convierta en un cuello de botella:

Optimización del rendimiento de datos PCIe: solo se necesitan 737 milisegundos para procesar 2 ^{ 27 } elementos
Memoria Fija: soporta la transmisión de datos "sin copias", reduciendo los costos de copia
Programación de operaciones asíncronas: el cálculo y la comunicación se realizan en paralelo, maximizando la utilización de recursos.

Hablando claro: los desafíos siguen existiendo

Siempre nos mantenemos transparentes: la aceleración por GPU no es una solución mágica; en la implementación real, también hemos enfrentado varios cuellos de botella técnicos:

El ancho de banda de memoria ha alcanzado su límite.

Incluso con una ancho de banda de hasta 3.35 TB/s, el H100 se convertirá en un cuello de botella de rendimiento bajo carga alta.
En comparación: los dominios de curvas elípticas más grandes (como BN 254) alcanzan el máximo más rápido que los dominios más pequeños (como M 31)

La capacidad de memoria de la GPU está limitada

RTX 4090 se queda sin memoria al procesar 2 ^{ 29 } elementos
En el despliegue real, se necesita una estrategia de programación de memoria precisa para evitar riesgos de desbordamiento.

Compromiso entre el tamaño del dominio y el rendimiento

Comparación de "puntos fuertes de GPU": ¿Desde cuándo superan a la CPU?

Prueba de rendimiento multiplataforma

Hemos realizado pruebas de referencia en diferentes niveles de GPU, abarcando hardware de nivel de consumo y de centro de datos:

GPU de consumo

RTX 3090: ancho de banda de memoria 936 GB/s, el rendimiento puede aumentar hasta 951 veces.
RTX 4090: ancho de banda de memoria 1008 GB/s, mejora de rendimiento de hasta 1565 veces
Centro de datos GPU
NVIDIA H100: ancho de banda de hasta 3.35 TB/s, rendimiento mejorado hasta 2826 veces

Conclusión clara y precisa: el ancho de banda de la memoria es la variable clave para la aceleración de zk-SNARKs.

Perspectivas futuras: nuestra hoja de ruta

Estamos lejos de detenernos, y a continuación continuaremos trabajando en los siguientes objetivos:

Aceleración más extrema: para operaciones específicas, el objetivo es lograr una mejora de velocidad de 10,000 veces.
Mayor compatibilidad de hardware: cobertura total desde tarjetas gráficas de alto rendimiento para juegos hasta tarjetas de aceleración de nivel de centro de datos.
Integración nativa de Ethereum: Estamos colaborando con el equipo de desarrollo del cliente de Ethereum para integrar directamente nuestra pila de pruebas ZK GPU en la capa L1.

¡Únete a esta ola de cambio!

Esto no solo es una mejora en la velocidad, sino una reestructuración completa de la accesibilidad de la cadena de bloques. No importa quién seas, siempre podrás encontrar una manera de participar:

Desarrolladores: Bienvenidos a ver nuestros repositorios de Expander y CUDA, construyamos juntos el futuro
Aprendices: sigan nuestros seminarios de investigación y profundizaciones técnicas, actualizaciones continuas para no quedarse atrás.
Todos: ¡Difundan esta tecnología! Cuantos más la entiendan, más cerca estará el futuro de Web3.

Revisión de los puntos clave

Estamos en un emocionante punto de inflexión tecnológico. La combinación de zk-SNARKs con la aceleración de GPU no es solo una mejora marginal en el rendimiento, sino una transformación de paradigma.

Estamos redefiniendo los límites de velocidad, costo y disponibilidad de Ethereum.

Resumen de los resultados tecnológicos clave:

Implementación de prueba ZK orientada a entornos de producción con más de 1000 veces de aceleración
La utilización del ancho de banda de memoria de la GPU supera el 95%
Implementación de código abierto, se puede integrar en cualquier momento

El futuro de Web3 no solo es descentralizado, sino también de acceso ultrarrápido, y es más rápido de lo que imaginas.

¿Cuál es el aspecto que más te interesa de estos avances? ¡Bienvenido a dejar un comentario o interactuar conmigo en Twitter, estaremos encantados de profundizar en estos detalles técnicos!

El futuro pertenece a la velocidad, y también a ti. Hasta la próxima, sigue construyendo, ¡no solo se trata de rapidez!

ETH-1.61%

Ver originales

El contenido es solo de referencia, no una solicitud u oferta. No se proporciona asesoramiento fiscal, legal ni de inversión. Consulte el Descargo de responsabilidad para obtener más información sobre los riesgos.

Recompensa
Me gusta
Comentar
Compartir

Comentar

0/400

Sin comentarios

Tema
#PI#
309k publicaciones
#BTC#
273k publicaciones
#ETH#
180k publicaciones
4#GateioInto11#
83k publicaciones
5#GT#
71k publicaciones
6#ContentStar#
69k publicaciones
7#DOGE#
64k publicaciones
8#BOME#
62k publicaciones
9#MAGA#
53k publicaciones
10#SLERF#
51k publicaciones

Anclado