A CAIBA já está estabelecendo o padrão 📊
Desde o lançamento no início deste mês:
• CAIA Benchmark v0.2 expandido: 40 → 60 tarefas
• Resultados mostram que a Ferramenta é mais eficaz do que a sugestão
• Tokenomics atrapalha a maioria dos modelos
Em Breve:
• Expansão de 60 para 80 tarefas na CAIA v0.3
• Adicionando mais agentes cripto (não apenas LLMs)
Todos os resultados estão no blog completo vinculado abaixo
