lendo os whitepapers para protocolos de treinamento de IA descentralizada / estilo enxame esta semana e estou impressionado com o que não está neles: determinismo.
a inferência em gpu é famosa por ser instável - pequenas reordenações de fp32, atômicos em convoluções, down-casts de núcleo tensor, corridas de múltiplos fluxos - tudo isso resulta em diferentes logits na mesma passagem para frente. a literatura está cheia de soluções alternativas (modos determinísticos do cuDNN, núcleos de bloqueio por ticket, builds de motor congelados), no entanto, nada disso aparece nos papéis brilhantes do dtrain.
por que se importar? se cada par no mesh gera gradientes ligeiramente diferentes, boa sorte alcançando consenso onchain ou provando uma contribuição honesta. os custos de verificação explodem, a lógica de corte quebra, e todo o slogan de "treinamento minimizado em confiança" começa a parecer mais um ideal do que uma implementação.
então, twitter de crypto-ml: quem está realmente enfrentando a não-determinismo em um ambiente distribuído e adversarial? há algum paper / blog que eu deveria ler? analogias com outras camadas de consenso? deixem links abaixo