há algumas concepções errôneas sobre o que realmente está acontecendo em diferentes execuções de treinamento descentralizado
RL Swarm não é apenas geração de rollout distribuído, é aprendizado baseado em gossip onde a comunicação em si é um objetivo de treinamento
os modelos aprendem a raciocinar E a conversar