A CAIBA já está estabelecendo o padrão 📊

Desde o lançamento no início deste mês:

• CAIA Benchmark v0.2 expandido: 40 → 60 tarefas

• Resultados mostram que a Ferramenta é mais eficaz do que a sugestão

• Tokenomics atrapalha a maioria dos modelos

Em Breve:

• Expansão de 60 para 80 tarefas na CAIA v0.3

• Adicionando mais agentes cripto (não apenas LLMs)

Todos os resultados estão no blog completo vinculado abaixo