Revolução GPU: Como podemos usar zk-SNARKs para acelerar o Ethereum em 1000 vezes

2025-05-29 05:57:02

Este artigo irá analisar um avanço tecnológico crucial: através da combinação de GPUs de alto desempenho com zk-SNARKs, estamos aumentando a eficiência operacional do Ethereum em centenas e até milhares de vezes. Isso não apenas resolve o gargalo de desempenho que a Blockchain enfrenta há muito tempo, mas também fornece um caminho tecnológico viável para a infraestrutura do futuro Web3.

Se você já se perguntou: por que o Ethereum é lento e os custos de transação são altos? Ou talvez você esteja interessado nos principais fatores que impulsionam a próxima geração de tecnologia blockchain? Então, este artigo lhe fornecerá respostas claras.

Essência do Problema: Por que a Blockchain é como uma autoestrada congestionada?

Pode-se imaginar o Ethereum como uma autoestrada. Atualmente, todos os usuários e aplicações estão competindo pelos recursos limitados das faixas, levando a congestionamentos na rede, processamento lento de transações e taxas de Gas elevadas.

As abordagens tradicionais de solução são apenas duas:

Reparar mais pistas —— ou seja, construir uma rede Layer 2 (por exemplo, Rollups)
Tornar os veículos menores – ou seja, comprimir os dados da transação

Mas e se houvesse uma maneira de "teletransportar" veículos, em vez de continuar a congestioná-los nas faixas? Esta é a inovação de paradigma trazida pelos zk-SNARKs. A sua ideia central é: em vez de transmitir todos os dados das transações em si, é possível validar a veracidade da transação apenas gerando uma prova matemática. Em outras palavras, não precisamos mais que cada veículo passe pela autoestrada, mas sim validar diretamente que "estes veículos realmente chegaram ao destino". Isso não só reduz a carga de transmissão de dados, mas também permite que as três partes "alta taxa de transferência + forte segurança + verificação sem confiança" sejam compatíveis.

The Verge: A próxima evolução do Ethereum

Ethereum está atualmente a avançar com um ambicioso plano técnico - The Verge, que podes entender como o "plano de emagrecimento" do Ethereum. O objetivo é: reduzir significativamente a barreira de entrada para correr um nó do Ethereum, tornando-o tão simples quanto correr uma aplicação num telemóvel. No futuro, qualquer pessoa poderá facilmente juntar-se à rede Ethereum, sem depender de um computador de jogos de alto desempenho.

Mas há um desafio técnico crucial por trás deste plano: ele precisa completar milhões de cálculos matemáticos complexos em um tempo muito curto.

Esta é precisamente a direção de突破 que a equipe Polyhedra está focada - como utilizar GPUs para acelerar cálculos ZK em larga escala, aumentando significativamente a eficiência de execução enquanto garante a segurança da verificação.

Desafios Tecnológicos: Este conjunto de dados vai revolucionar a sua percepção

Para entender a complexidade com a qual estamos lidando, aqui está a verdadeira escala das operações on-chain atuais do Ethereum:

Verificação de Consenso: Cada bloco contém cerca de 90 milhões de cálculos de hash SHA 2-256, bem como 2.048 verificações de assinatura digital BLS.
Provas de Transição de Estado (State Transition Proofs):
Cada bloco requer aproximadamente 500 mil operações de hash Keccak.
Gargalo atual:
O provador de zk-SNARKs baseado em CPU atualmente consegue processar apenas cerca de 2 milhões de cálculos de hash Poseidon por segundo.

O verdadeiro desafio é que precisamos usar a tecnologia zk-SNARKs para realizar todos os cálculos mencionados acima, o que, sem dúvida, aumenta significativamente a complexidade computacional.

Ponto de ruptura: A revolução do poder de computação das GPUs

É do conhecimento geral que as GPUs são muito apreciadas por jogadores e engenheiros de IA. No entanto, na verdade, essas unidades de processamento gráfico demonstram capacidades muito superiores às das CPUs ao realizar cálculos matemáticos em grande escala necessários para zk-SNARKs.

Na Polyhedra, otimizamos o sistema de prova ZK nativamente para GPU e alcançamos indicadores de desempenho impressionantes:

Transição de desempenho, muito além das expectativas

Aceleração de operações matemáticas básicas (Campo de Mersenne 31) em 362 vezes
Aceleração de operações criptográficas complexas (curva elíptica BN 254) de até 2826 vezes
Um cálculo de zk-SNARKs que originalmente levava 21 minutos, agora foi comprimido para apenas 450 milissegundos.

Em outras palavras, isso equivale a reduzir o seu tempo de deslocamento durante a hora de pico da manhã de 20 minutos para menos de meio segundo. Isso não é uma otimização gradual, mas um salto computacional em nível de paradigma.

Por que esta descoberta está relacionada com você?

Custos de transação mais baixos: a velocidade de geração de provas mais rápida significa que o custo computacional geral diminui significativamente, resultando em taxas de Gas mais baixas. Uma vitória tanto para os usuários quanto para a rede.
Garantia de segurança mais forte: Lembra-se de que mencionamos que o orçamento de segurança do Ethereum ultrapassa 40 milhões de dólares por ano? Com a nossa tecnologia, os nós leves podem facilmente verificar toda a cadeia de consenso do Ethereum, desfrutando de garantias de segurança de nível de mainnet, sem a necessidade de grandes gastos de recursos.
Funcionamento de nós mais abrangente, o celular também pode rodar Ethereum: a nossa contínua otimização de desempenho e eficiência está tornando possível a execução de nós Ethereum em dispositivos comuns. No futuro, validar dados de blockchain pode ser feito apenas com um celular.

Núcleo Tecnológico: Como fazemos isso

1. Design nativo de GPU: protocolo Sumcheck otimizado para CUDA

A nossa implementação do Sumcheck baseada em CUDA aproveita ao máximo as vantagens do cálculo paralelo da GPU:

Projetar núcleos CUDA personalizados para operações em campos numéricos (adição, multiplicação, exponenciação)
Utilizando o modo de acesso à memória mesclada, maximizando a utilização da largura de banda da GPU (a largura de banda medida da RTX 4090 chega a 1008 GB/s)
Usar primitivas de nível warp para realizar operações de redução (Reduction) eficientes

Esta personalização em profundidade permite que o protocolo Sumcheck não esteja mais limitado pelo gargalo serial da CPU.

A memória é o rei: a otimização do gargalo de largura de banda. A visão tradicional considera que o gargalo de cálculo do ZK Prover está na potência computacional, mas nossas evidências mostram que – Sumcheck é um problema típico de gargalo de largura de banda de memória:

Análise de throughput da memória: a taxa de utilização da largura de banda atingiu 95% do limite teórico +
Otimização da estrutura de dados: utilização de Structure-of-Arrays (SoA) em vez da estrutura tradicional Array-of-Structures (AoS)
Aumentar a utilização da unidade SM: otimizar a configuração do bloco de threads para alcançar a melhor taxa de ocupação do hardware.

Ao resolver o problema de throughput de memória, transformamos o cálculo ZK em uma verdadeira tarefa de fluxo eficiente.

3. Estratégias de otimização personalizadas para diferentes domínios numéricos

Diferentes campos da criptografia têm diferentes características de operação, e nós personalizamos um caminho otimizado para cada um dos principais campos:

Mersenne 31 (M 31): otimização de inteiros de 31 bits, estrutura de operação modular eficiente
M 31 ext 3 ：Suporte a campos de extensão, equilibrando a expansão polinomial e baixo custo
BN 254: Multiplicador personalizado baseado no algoritmo de Montgomery, projetado para campos de inteiros grandes de 254 bits.

Esta otimização de base altamente direcionada torna o nosso ZK Prover tanto genérico quanto extremamente eficiente.

Análise de Dados de Desempenho: Onde as Otimizações Acontecem

Não apenas fizemos "muito mais rápido", mas elevamos o desempenho do ZK a alturas sem precedentes. Abaixo estão os dados de desempenho testados:

Revelação da arquitetura técnica: a verdade sob o capô

Pilha de protocolos GKR: núcleo acelerado

A nossa otimização acelerada foca no protocolo GKR (Goldwasser-Kalai-Rothblum), incluindo especificamente:

Camada GKR Linear: usada para processar portas de adição e multiplicação
Protocolo Sumcheck: o gargalo de desempenho, ocupando quase 50% do tempo total de cálculo da CPU.
Fase de avaliação polinomial: redução do tempo de cálculo de 8,4 segundos para 9,5 milissegundos na GPU

Detalhes sobre o design do núcleo da GPU

Primeira fase: Avaliação de polinómios

Calcular em paralelo em 2 ^n pontos
Usar o coeficiente de cache de memória compartilhada para aumentar a velocidade de acesso
Utilizando warp shuffle para realizar operações de redução eficientes
Segunda fase: Geração de desafios
Executar operações de hash Fiat-Shamir dentro da GPU, evitando mudanças frequentes entre CPU e GPU
Reduzir a latência de comunicação entre CPU e GPU

Otimização de transferência de memória: desbloquear o "último quilômetro" do fluxo de dados

Fizemos também otimizações sistemáticas na interação CPU-GPU, para garantir que a largura de banda não se torne um gargalo:

Otimização do throughput de dados PCIe: processar 2 ^{ 27 } elementos leva apenas 737 milissegundos
Memória Fixa: suporta transferência de dados "zero cópia", reduzindo os custos de cópia
Agendamento de operações assíncronas: cálculo e comunicação ocorrem em paralelo, maximizando a utilização de recursos

A verdade é que os desafios ainda existem.

Nós sempre mantivemos a transparência – a aceleração por GPU não é uma solução mágica, e durante a implementação, também encontramos várias barreiras técnicas:

A largura de banda da memória atingiu o teto

Mesmo o H100 com uma largura de banda de até 3,35 TB/s pode se tornar um gargalo de desempenho sob alta carga.
Em comparação: domínios de curvas elípticas maiores (como BN 254) atingem o pico mais rapidamente do que domínios menores (como M 31)

A capacidade de memória de vídeo da GPU é limitada

RTX 4090 esgotou a memória ao processar 2 ^{ 29 } elementos
A implementação real requer uma estratégia de agendamento de memória refinada para evitar riscos de overflow.

A compensação entre o tamanho do domínio e o desempenho

Comparação de "Vantagens da GPU": Desde quando começou a superar a CPU?

Teste de desempenho entre plataformas

Realizamos testes de benchmark em GPUs de diferentes níveis, abrangendo hardware de consumo e de data center:

GPU de consumo

RTX 3090: largura de banda de memória 936 GB/s, melhoria de desempenho de até 951 vezes
RTX 4090: largura de banda de memória 1008 GB/s, melhoria de desempenho de até 1565 vezes
Centro de Dados GPU
NVIDIA H100: largura de banda de até 3.35 TB/s, aumento de desempenho de até 2826 vezes

Conclusão clara e direta: a largura de banda da memória é a variável chave para a aceleração dos zk-SNARKs.

Perspectivas Futuras: Nosso Roteiro

Estamos longe de parar, a seguir continuaremos a enfrentar os seguintes objetivos:

Aceleração ainda mais extrema: para operações específicas, o objetivo é alcançar um aumento de velocidade de 10.000 vezes.
Compatibilidade de hardware mais ampla: cobertura total desde placas gráficas de alto desempenho até placas de aceleração de nível de data center.
Integração nativa do Ethereum: Estamos a colaborar com a equipa de desenvolvimento do cliente Ethereum para integrar diretamente a nossa pilha de provas ZK em GPU na camada L1.

Junte-se a esta onda de transformação!

Isto não é apenas um aumento de velocidade, mas uma reestruturação completa da acessibilidade da Blockchain. Seja quem for, pode encontrar uma forma de participar:

Desenvolvedores: Bem-vindos a verificar os nossos repositórios Expander e CUDA, juntos a construir o futuro
Aprendizes: Fiquem atentos aos nossos seminários de pesquisa e mergulhos técnicos, atualizações contínuas para não ficarem desatualizados
Todos: Espalhem esta tecnologia! Quanto mais pessoas entenderem, mais perto estará o futuro do Web3.

Revisão dos pontos principais

Estamos num emocionante ponto de viragem tecnológico. A combinação de zk-SNARKs com aceleração de GPU não é apenas um aumento marginal de desempenho, mas uma verdadeira revolução de paradigma.

Estamos a redefinir os limites de velocidade, custo e usabilidade do Ethereum.

Principais resultados tecnológicos:

Implementação de prova ZK para ambientes de produção com aceleração superior a 1000 vezes
A utilização da largura de banda da memória GPU excede 95%
Implementação de código aberto, pode ser integrada a qualquer momento

O futuro da Web3 não é apenas descentralizado, mas também de acesso rápido, e é mais rápido do que você imagina.

Qual aspecto desses avanços mais lhe interessa? Sinta-se à vontade para deixar um comentário ou interagir comigo no Twitter, estamos muito interessados em discutir esses detalhes técnicos!

O futuro pertence à velocidade, e também a você. Até a próxima, continue construindo, não é só sobre ser rápido!

ETH-1.61%

Ver original

O conteúdo serve apenas de referência e não constitui uma solicitação ou oferta. Não é prestado qualquer aconselhamento em matéria de investimento, fiscal ou jurídica. Consulte a Declaração de exoneração de responsabilidade para obter mais informações sobre os riscos.

Recompensa
gostar
Comentar
Partilhar

Comentar

0/400

Nenhum comentário

Tópico
#PI#
309k publicações
#BTC#
273k publicações
#ETH#
180k publicações
4#GateioInto11#
83k publicações
5#GT#
71k publicações
6#ContentStar#
69k publicações
7#DOGE#
64k publicações
8#BOME#
62k publicações
9#MAGA#
53k publicações
10#SLERF#
51k publicações

Pino