Guía de autoridad ZKML (2025)

Los sistemas de inteligencia artificial están tomando decisiones que afectan el flujo de fondos, los resultados médicos y las acciones autónomas, pero, ¿cómo verificar si la inteligencia artificial realmente calculó lo que afirma haber calculado? ¿Está utilizando el modelo que prometió usar? ¿Está filtrando tus datos en el proceso?
Existen muchas formas de implementar inteligencia artificial verificable, como hardware confiable, mecanismos de consenso y reejecuciones en áreas seguras, cada método tiene sus ventajas, pero el más interesante es el aprendizaje automático de conocimiento cero (ZKML), que aborda el problema de verificación a través de matemáticas puras y suposiciones de confianza mínimas.
Índice de contenido.
Verificación sucinta: gran capacidad de cómputo, recibos de bajo costo.
Privacidad: la parte realmente útil del conocimiento cero.
Moneda programable: ¿por qué los agentes necesitan pruebas?
Descripción general del dominio: quién está construyendo qué.
Etapa temprana (2022-2023) prueba de concepto.
Halo2 aplicado a ZKML.
Explosión (2024-2025): elige tu guerrero.
Realidad técnica.
Casos de uso: ¿qué realmente vale la pena probar?
Filtros básicos.
DeFi: el centro de acumulación de fondos.
Agentes sin confianza.
Cuidado de la salud: privacidad y auditabilidad.
Juego: equidad verificable.
Mercado de modelos: verificación de aprendizaje automático como servicio (MLaaS).
Memoria de IA.
Qué falta en 2025.
Predicciones de ZKML para 2026.
Olas de hardware.
Sistema de pruebas: mejor matemática.
Cobertura de operadores en crecimiento explosivo.
Los cambios en la curva de costos han llevado a la evolución de los casos de uso.
En última instancia.
El aburrimiento es algo bueno; el aburrimiento significa que se está volviendo real.
Escucha, vamos a pasar por alto el hardware y los métodos de ejecución pesada - TEE, mecanismos de consenso, etc. No porque sean malos, sino porque para mí, la pregunta interesante es la verificación puramente matemática: aplicar pruebas de conocimiento cero a aprendizaje automático - ZKML.
Hace tres años, este campo casi no existía en la "industria". Luego, aparecieron Modulus Labs, EZKL, el Dr. Daniel Kang, la Dra. Cathie So y otros, que dijeron "hagamos que la inteligencia artificial sea verificable", y la oposición evidente fue instantánea: el costo de una máquina virtual de conocimiento cero (zkVM) es entre 100,000 y 1,000,000 veces más alto que el de una máquina virtual tradicional. Ejecutar inferencias en pruebas de conocimiento cero es tan difícil como nadar en concreto.
Entonces, ¿por qué hacer esto?
Se ha demostrado que hay tres razones por las que ZKML vale la pena el esfuerzo.
Verificación sucinta: gran capacidad de cómputo, recibos de bajo costo.
La efectividad de ZKML radica en esta asimetría: el costo de cálculo puede ser alto, mientras que el costo de verificación puede ser bajo.
AWS ejecutará tu modelo en un clúster de GPU durante una hora y luego enviará un recibo criptográfico a tu teléfono. El proceso de verificación solo toma 50 milisegundos, y tu teléfono sabe matemáticamente - es decir, sabe - que el cálculo se ha completado correctamente sin necesidad de confianza.
Esto abre un nuevo dominio: flujos de trabajo de agentes sin confianza. Tu agente en el teléfono se comunica con el agente en el centro de datos de la empresa, que a su vez se comunica con el agente en Ethereum, que finalmente se comunica con el agente en Solana. Cada agente transmite información criptográfica como en una carrera de relevos, logrando operaciones comerciales de agentes sin confianza, con la verificación de extremo a extremo de toda la "cadena" de inferencias.
¿Y si no lo tuvieras? Un agente comprometido arruinaría todo el flujo de trabajo. En sistemas autónomos como la transferencia de fondos o decisiones médicas, esto no es una vulnerabilidad, sino un desastre inminente.
Privacidad: la parte realmente útil del conocimiento cero.
ZK en ZKP significa que la prueba no revela ninguna información.
Los hospitales utilizan datos de pacientes para diagnósticos y generan pruebas. Ahora, pueden demostrar a los reguladores "utilizamos un modelo aprobado por la FDA y obtuvimos este resultado" sin revelar ningún registro de paciente. Los datos permanecen privados, mientras que la prueba se hace pública.
O: un banco prueba que su modelo de detección de fraude funciona correctamente, pero no revela el modelo en sí (ventaja competitiva) ni los datos de las transacciones (requisitos regulatorios). Después de la verificación del auditor, todos están felices.
También estamos prestando atención a la tendencia de la inteligencia artificial hacia el extremo del dispositivo: Gemma, los modelos de Foundation de Apple, y toda la ola de inferencia local. Estos modelos finalmente necesitarán comunicarse con el mundo exterior. zkML puede permitir que los modelos que se ejecutan en tu computadora portátil demuestren a sistemas remotos que realmente han realizado cálculos, sin necesidad de cargar tus datos o pesos del modelo.
zkML tiene muchos casos de uso que requieren protección de la privacidad, no todos los repositorios de código ofrecen protección de la privacidad: ¡los desarrolladores deben tener esto en cuenta!
Moneda programable: ¿por qué los agentes necesitan pruebas?
En 2025, las pruebas criptográficas podrán controlar moneda real, lo que es más importante de lo que la gente se da cuenta.
Estándares como X402 y ERC-8004 para pagos entre agentes están surgiendo. Estamos avanzando hacia una era de economía autónoma, donde:
Los agentes compran datos de proveedores.
Inferencia en múltiples modelos.
Entregar resultados a los clientes.
Completar conciliaciones de pagos: todo el proceso sin intervención humana.
Cada paso necesita prueba. ¿Usaste datos pagados? ¿Ejecutaste el modelo que afirmas? ¿Este resultado realmente provino de ese cálculo? zkML responde a estas preguntas mediante tecnología criptográfica.
Cuando los comerciantes manejan dinero real - no tokens de prueba - sino valor real, los mecanismos de seguridad basados en matemáticas son imprescindibles. Necesitas pruebas, o necesitas confianza. Si lo que deseas construir es un sistema sin confianza, la elección es evidente.
2025: ZKML sigue siendo costoso. Los costos realmente existen, pero están disminuyendo (1,000,000 veces → 100,000 veces → 10,000 veces), y su propuesta de valor se vuelve cada vez más clara.
zkPyTorch se lanzó en marzo de 2025. El tiempo de prueba de VGG-16 se redujo instantáneamente a 2.2 segundos. Lagrange's DeepProve resolvió el problema de inferencia de LLM a gran escala en agosto. En otoño, también observamos aceleraciones similares en el repositorio de código de JOLT Atlas, y esto fue sin usar GPU, y se lograron aceleraciones en varios modelos.
En 2025 - ya hemos dejado atrás la fase de juguete. Ahora, con tecnología de pruebas de conocimiento cero (ZKP), algunos modelos pueden ser verificados en segundos. A medida que las herramientas de desarrollo mejoren, podemos esperar ver esta infraestructura revolucionaria aplicada en más proyectos en 2026.
El costo computacional es un pago único: se obtiene la verificabilidad, la protección de la privacidad y la capacidad de coordinar agentes a través de fronteras de confianza sin intermediarios. En un mundo donde los agentes de inteligencia artificial están a punto de mover miles de millones de dólares, esto no es un lujo, sino una infraestructura esencial.
Descripción general del dominio: quién está construyendo qué.
zkML ha evolucionado desde "posiblemente realizable" en 2022 hasta "realmente lanzado" en 2025. Aquí está cómo llegamos a este punto y quién está haciendo qué.
Etapa temprana (2022-2023): prueba de concepto.
Modulus Labs fue pionero en este movimiento, el Dr. Daniel Shorr de la Universidad de Stanford y su equipo publicaron (El costo de la inteligencia): esta es la primera prueba de referencia real para sistemas de pruebas de conocimiento cero de inteligencia artificial. Su argumento es que si la agregación de conocimiento cero puede reducir los costos computacionales de Ethereum, tal vez también pueda llevar la inteligencia artificial a la cadena.
Spoiler: esto es increíblemente costoso. Solo validar la parte más pequeña de un contrato inteligente cuesta 20 dólares por transacción, pero tuvo éxito. Desarrollaron RockyBot (un juego de lucha de IA en cadena) y Leela vs the World para validar este concepto. Más importante aún, demostraron que es posible validar GPT-2 y los algoritmos de recomendación de Twitter bajo condiciones de conocimiento cero.
La tecnología subyacente que utilizan se llama protocolo GKR. Vitalik hizo recientemente un tutorial sobre esto, así que no me extenderé aquí. Si estás interesado en GKR, puedes consultar ese artículo. La idea central de GKR es permitirte omitir el compromiso criptográfico en la capa central, y las operaciones de aprendizaje automático se sienten "naturales" en este entorno.
Se ha demostrado que la multiplicación de matrices y otras operaciones clave son más eficientes al utilizar protocolos especializados (como el protocolo de sumcheck y parámetros de búsqueda). Thaler explicó este núcleo hace años en su obra (Pruebas, argumentos y conocimiento cero):
Vista previa: otros protocolos de MATMULT. Otro protocolo MATMULT interactivo se obtiene aplicando el protocolo GKR (que se presentará en la sección 4.6) al circuito que calcula el producto de dos matrices de entrada A y B, donde el tiempo de ejecución del verificador en este protocolo es O(n^2) y el tiempo de ejecución del probador es O(S), donde S es el número de puertas en el circuito C.
Las ventajas del protocolo MATMULT descritas en esta sección se manifiestan en dos aspectos. Primero, no le importa cómo el probador encuentra la respuesta correcta. En comparación, el protocolo GKR requiere que el probador calcule la matriz de respuesta C de una manera predefinida, es decir, evaluando el circuito C puerta por puerta. En segundo lugar, el probador en el protocolo de esta sección solo necesita encontrar la respuesta correcta y luego realizar un trabajo adicional de O(n^2) para probar su corrección. Suponiendo que no existe un algoritmo de multiplicación de matrices en tiempo lineal, este O(n^2) es un costo aditivo de bajo orden. En comparación, el protocolo GKR introduce al menos un costo de factor constante al probador, lo que en la práctica significa que el probador funciona mucho más lento que el algoritmo MATMULT (que no se puede verificar), mientras que el probador solo es un poco más lento que el uno por ciento.
Thaler también fue uno de los primeros en abogar por usar el protocolo de sumcheck como un módulo central en todas las construcciones de ZK. (@SuccinctJT #tendsToBeRight).
Halo2 aplicado a ZKML.
Alrededor de la misma época, Jason Morton fundó EZKL. Su enfoque es diferente: acepta modelos en cualquier formato ONNX (el estándar abierto para redes neuronales), los convierte a circuitos Halo2 y luego genera pruebas. Su ventaja es que no necesitas ser un criptógrafo, solo exporta tu modelo PyTorch y EZKL lo leerá para obtener una prueba.
Explosión (2024-2025): elige tu guerrero.
* Si tu proyecto debería estar en la lista, o si hay cambios relevantes en 2025, ¡házmelo saber!
* Las siguientes afirmaciones provienen de las auto-presentaciones de los proyectos en sus artículos de blog, a veces estas afirmaciones pueden ser exageradas. 😬😬
EZKL (de 2023 hasta ahora).
ONNX → circuitos Halo2.
Las pruebas de referencia indican que es 65 veces más rápido que RISC Zero y 3 veces más rápido que Orion.
98% de ahorro en memoria sobre RISC Zero.
Desventajas: actualmente solo admite algunos operadores de ONNX (están agregando más).
Desafío principal: cuantificación, de operaciones de punto flotante a enteros, con pérdida de precisión.
Posible protección de la privacidad ✅.
Lagrange DeepProve (lanzado en 2024, verificado por GPT-2 a principios de 2025).
Esta llegada es rápida, supuestamente de 54 a 158 veces más rápida que EZKL.
Primero, prueba que GPT-2 puede realizar inferencias completas: no solo inferencias parciales, sino todas las inferencias.
Resultados de verificación: MLP aumenta la velocidad 671 veces, CNN aumenta la velocidad 521 veces (reducción del tiempo de verificación a medio segundo).
Utilizando el protocolo de sumcheck + parámetros de búsqueda (logup GKR).
Desarrollo de soporte para LLAMA - GPT-2 y LLAMA son arquitectónicamente similares, así que están muy cerca.
Poseer una red de probadores descentralizada (funcionando en EigenLayer).
Poco probable que proteja la privacidad ❌.
zkPyTorch (Red de Polyhedra, marzo de 2025).
Este es un avance revolucionario en la transformación moderna.
Primero, prueba Llama-3 - 150 segundos por token.
VGG-16 toma 2.2 segundos.
Optimización de tres capas: preprocesamiento, cuantificación amigable con ZK, optimización de circuitos.
Utilizando DAG y ejecución paralela entre núcleos.
Integración con el motor de verificación Expander.
Poco probable que proteja la privacidad ❌.
ZKTorch (Daniel Kang, julio de 2025).
"Compilador universal" - maneja cualquier tarea.
GPT-J (6 mil millones de parámetros): ejecutarse en 64 hilos toma 20 minutos.
GPT-2: 10 minutos (anteriormente más de 1 hora).
Prueba de ResNet-50: 85KB (los archivos de prueba generados por Mystique eran de 1.27GB).
Utilizando el método de acumulación de pruebas: fusionar múltiples pruebas en una prueba concisa.
Este es el rey de la velocidad de zkML actual.
Objetivos académicos en lugar de industriales.
Jolt Atlas (NovaNet / ICME Labs, agosto de 2025).
JOLT zkVM basado en a16z, modificado para ONNX.
Método zkVM, pero en realidad es muy rápido.
Perspectiva clave: las cargas de trabajo de aprendizaje automático prefieren usar tablas de búsqueda, y JOLT ya admite tablas de búsqueda.
Sin polinomios de comercio, sin descomposición de bytes, sin grandes sumas: solo búsquedas y verificaciones de suma.
Admite cuantificación flexible: no generará tablas de búsqueda completas, por lo que no se verá limitado a esquemas de cuantificación específicos.
Teóricamente puede escalar a operaciones de punto flotante (la mayoría de los otros métodos de operación siguen limitados a operaciones de punto fijo).
Ideal para escenarios de uso donde los agentes necesitan satisfacer simultáneamente las demandas de verificación y protección de la privacidad.
Admite cálculos verdaderos de conocimiento cero a través de esquemas de plegado (HyperNova / BlindFold) ✅.
Realidad técnica.
El dilema de la cuantificación: los modelos de aprendizaje automático utilizan operaciones de punto flotante, mientras que las pruebas de conocimiento cero utilizan operaciones de dominio finito (esencialmente enteros). Necesitas hacer conversiones, lo que pierde precisión. La mayoría de los modelos de aprendizaje automático de conocimiento cero (ZKML) se cuantificarán, por lo que la precisión disminuirá ligeramente; sin embargo, muchos modelos de aprendizaje automático para dispositivos pequeños y entornos de producción son modelos cuantificados.
Cada marco maneja las cosas de manera diferente. Algunos marcos utilizan un ancho de bits mayor (más preciso pero más lento), algunos marcos utilizan tablas de búsqueda, y algunos marcos aplican ingeniosamente representaciones de punto fijo. La razón por la que a Jolt Atlas le gusta nuestro enfoque es que no necesitamos instanciar tablas de búsqueda para muchos operadores de aprendizaje automático.
Aún no se ha encontrado una solución perfecta. Solo se puede avanzar iterativamente, incrementando gradualmente los casos de uso. Esta es una de las razones por las que mantenemos un optimismo cauteloso sobre el futuro cercano de ZKML.
Cobertura de operadores: ONNX tiene más de 120 operadores, la mayoría de los marcos zkML pueden admitir solo entre 50 y 200, lo que significa que algunas arquitecturas de modelo no funcionan correctamente en este momento. Los equipos están trabajando a contrarreloj para agregar más operadores, pero no es una tarea fácil.
Tu modelo de producción utiliza operadores que no son compatibles con el marco zkML, esta situación es más común de lo que piensas.
La especificación de ONNX incluye más de 120 operadores, la mayoría de los marcos zkML solo admiten 50 o menos, la brecha está en:
¿La capa personalizada que escribiste para un caso de uso específico? No.
Métodos de normalización especiales (GroupNorm, variantes de LayerNorm): tal vez.
Flujos de control dinámicos (instrucciones if, bucles): generalmente no.
Mecanismos de atención: se espera que se agreguen a los marcos principales en 2024-2025.
Innovaciones recientes (atención parpadeante, incrustaciones giratorias): puede que no.
Cuando intentes exportar el modelo, descubrirás este problema: la conversión a ONNX tuvo éxito, pero la importación de marco falló, "Operador no soportado: [cualquier operador]."
Ahora, estás reescribiendo el modelo para que solo use operadores compatibles. Esto no es un pequeño inconveniente irrelevante: es una limitación arquitectónica que deberías haber entendido antes de comenzar a entrenar. Esta es también una de las razones por las que nos gusta el enfoque zkVM... porque cada operador es más fácil de implementar de manera plug-and-play, mientras que el enfoque centrado en la precompilación requiere más trabajo manual 🫳🧶.
Funciones de activación: elige con cuidado. En el aprendizaje automático tradicional, las funciones de activación son gratuitas: ReLU, sigmoide, tanh, GELU: elige cualquier opción válida.
En zkML, las funciones de activación son operaciones costosas que pueden hacer que los circuitos se colapsen.
¿Por qué es tan costoso el cálculo de funciones de activación? Los circuitos ZK se basan en operaciones polinómicas - suma y multiplicación en dominios finitos, estas operaciones son de bajo costo porque se pueden mapear directamente a restricciones de circuitos, pero las funciones de activación son no lineales y no se pueden descomponer bien en operaciones de dominio.
ReLU necesita calcular "si x > 0 entonces x, de lo contrario 0"; esta comparación requiere múltiples condiciones restrictivas para representarse. Sigmoid requiere 1/(1 + e^(-x)) para realizar potencias en dominios finitos, lo cual es complicado y requiere muchas operaciones de multiplicación, a menudo necesita tablas de búsqueda. Softmax combina potencias, sumas y divisiones en un solo vector, convirtiendo operaciones simples en circuitos complejos que requieren cientos o incluso miles de condiciones restrictivas por neurona.
Barato:
Lineal (sin activación): gratis.
Suma escalonada: básicamente gratis.
Intermedio:
ReLU: necesita comparación, fácil de manejar.
Función escalonada: costos similares a ReLU.
Costoso:
Función sigmoide: las potencias en los circuitos son problemáticas.
Tanh: peor.
Softmax: potencias + divisiones + normalización, un verdadero dolor.
GELU / SwiGLU: déjalo por ahora (por el momento... aún tenemos trabajo por hacer).
Los Transformers modernos tienden a usar GELU y sus variantes, mientras que el Transformer de zkML solo puede usar algoritmos aproximados o alternativas más simples.
Esta es la razón por la que los marcos están construyendo tablas de búsqueda no lineales: pre-calcular valores comunes y referenciarlos directamente en lugar de recalcular, lo que es más rápido, pero a costa de un mayor uso de memoria y limitando las opciones de cuantificación.
Casos de uso: ¿qué vale realmente la pena probar?
Acabas de leer sobre el costo de 10,000 veces, el infierno de la cuantificación y la curva de costos exponencial. Una pregunta razonable: ¿por qué alguien se sometería a este sufrimiento?
La respuesta no es "todo debería hacerse con zkML", la respuesta es: ciertos problemas requieren urgentemente verificabilidad, por lo que vale la pena el costo adicional.
Filtros básicos.
Antes de profundizar en los casos de uso, hagamos una prueba: ¿el costo de la falla de confianza es mayor que el costo de la prueba?
Si el algoritmo de recomendación que estás ejecutando está diseñado para mostrar videos de gatos, entonces un fallo de confianza no tendrá consecuencias. Simplemente muestra los videos de gatos, a nadie le importará si tu modelo es el que afirmas que es.
Si ejecutas un robot de comercio que gestiona activos por valor de 10 millones de dólares, una crisis de confianza sería catastrófica. El robot se descontrola, la posición se liquida forzosamente, y aún tienes que explicar a los inversores por qué confiaste en una API opaca.
zkML es apropiado en los siguientes casos:
Alto riesgo: dinero, salud, decisiones legales, seguridad.
Brecha de confianza: desconfianza entre múltiples partes.
Restricciones de privacidad: datos sensibles no pueden compartirse.
Requisitos de auditabilidad: reguladores o partes interesadas necesitan evidencia.
Entornos adversarios: alguien tiene motivos para hacer trampa.
Si tu caso de uso no cumple al menos dos de los anteriores, es posible que no necesites zkML por ahora.
DeFi: el centro de acumulación de fondos.
DeFi es el hábitat natural de zkML, ya que presenta las siguientes características: las transacciones de alto valor requieren ejecución sin confianza en la blockchain y verificación sencilla, manteniendo la transparencia para los usuarios, ¡los adversarios intentarán aprovechar cada vulnerabilidad!
Oráculo de precios.
El primer producto verdaderamente zkML es zkPredictor de Upshot + Modulus. El problema es: la valoración de NFT se calcula mediante modelos de aprendizaje automático propietarios. ¿Cómo puedes confiar en esta información de precios?
Oráculos tradicionales: "Confía en nosotros, este es el resultado que da nuestro modelo." Oráculos zkML: "Aquí hay una prueba criptográfica que demuestra que este precio proviene de este modelo, ejecutándose en estos datos específicos (los datos pueden ser datos privados)."
Esta prueba significa que puedes construir productos financieros (préstamos, derivados) basados en estos precios, sin confianza en Upshot. No pueden manipular el precio sin romper la prueba; los datos permanecen privados, pero el proceso de cálculo es verificable.
Este modelo tiene universalidad: cada vez que los protocolos DeFi necesitan datos derivados de ML (estimaciones de volatilidad, puntuaciones de riesgo, predicciones de rendimiento), zkML puede probar los resultados de cálculo sin revelar el modelo.
Robots de comercio y agentes.
Imagina esto: has desplegado un agente de optimización de rendimiento en varios protocolos DeFi, que gestiona posiciones de liquidez en Uniswap, mina en Curve y realiza reequilibrios en Aave.
¿Cómo puedes estar seguro de que está ejecutando correctamente tu estrategia? ¿Cómo demuestras a los socios limitados que sus fondos se gestionan de acuerdo con el algoritmo que promocionas?
Con zkML, los agentes generarán una prueba para cada operación: "Transfiero 50 ETH del fondo A al fondo B porque mi modelo predice un mayor rendimiento. Esta es la prueba de que utilicé la estrategia aprobada por usted."
Giza construyó esta funcionalidad sobre Starknet. Su marco LuminAIR (utilizando el probador STWO de StarkWare) te permite construir agentes verificables para DeFi. Un agente que puede reequilibrar posiciones de Uniswap V3 puede probar que cada decisión de reequilibrio proviene de un modelo comprometido, manteniendo en secreto los pesos del modelo y la estrategia comercial, mientras que el proceso de prueba se hace público.
Esto permite la interacción entre agentes. Tu agente puede colaborar sin confianza con otros agentes, ya que ambos están generando resultados de cálculo verificables, sin la necesidad de un intermediario confiable, solo operaciones matemáticas puras.
Modelos de riesgo y puntuaciones de crédito.
Los bancos utilizan aprendizaje automático para decisiones crediticias. Los protocolos DeFi utilizan aprendizaje automático para establecer tasas de colateral. Pregunta: ¿cómo demuestras que tu modelo de riesgo se aplica de manera consistente?
Sistemas tradicionales: "Confía en el banco." Sistemas zkML: "Cada decisión de préstamo viene con una prueba que demuestra que este modelo específico evaluó los datos de este solicitante en estos parámetros fijos."
Esto es importante porque:
Cumplimiento regulatorio: prueba de que no has discriminado.
Auditoría de equidad: prueba de que el mismo modelo se aplica a todos.
Resolución de disputas: si alguien cuestiona una decisión, puedes proporcionar pruebas criptográficas del evento.
Los modelos pueden mantenerse como propiedad, los datos pueden permanecer privados, la evidencia indica que todo el proceso es justo.
Agentes sin confianza.
¿Recuerdas el principio? ¿Los agentes transmiten contraseñas como en una carrera de relevos?
Imagina un escenario así: un ecosistema de agentes en el que:
El agente A en tu teléfono analizó tu calendario y decidió que necesitas reservar un vuelo.
El agente B (servicio de reserva de viajes) busca vuelos y precios.
El agente C (procesador de pagos) ejecuta la transacción.
El agente D (seguimiento de gastos) lo registrará para el uso de tu contabilidad.
Cada paso necesita verificar el paso anterior. Si el análisis del agente A es fraudulento, el agente B no ejecutará la operación. Si la oferta del agente B es manipulada, el agente C no pagará. Si la transacción del agente C es sospechosa, el agente D no registrará.
Sin zkML: o cada agente opera en una zona confiable, o todos los agentes se confían mutuamente. Ninguno de estos enfoques es escalable.
Utilizando zkML: cada agente genera una prueba, el agente B verifica la prueba del agente A, el agente C verifica la prueba del agente B, todo el proceso sin confianza. Un agente puede operar en AWS, otro en tu teléfono, y otro en Ethereum, no importa - los principios matemáticos los conectan.
El futuro de x402 y ERC-8004.
Estos nuevos estándares emergentes definen cómo los agentes de inteligencia artificial pueden pagar directamente entre sí, todo el proceso sin intervención humana, pero los pagos requieren confianza.
Si el agente A afirma: "Hice este análisis, págame", el agente B necesita pruebas. Si el agente B maneja fondos y el agente A miente, eso es robo; zkML proporciona la capa de evidencia.
Nos estamos moviendo hacia una era de economía de agentes autónomos, donde los agentes se contratan entre sí para completar subtareas. Los agentes demuestran su trabajo a través de tecnología criptográfica y el pago se basa en el cumplimiento verificado, sin que ninguna entidad centralizada controle todo el flujo de trabajo.
El Jolt Atlas de NovaNet está diseñado para esto. Este programa de agentes puede demostrar la corrección de sus cálculos sin revelar entradas, salidas o estados intermedios. Esto es perfecto para programas de agentes comerciales que manejan información altamente sensible.
Cuidado de la salud: privacidad y auditabilidad.
La industria del cuidado de la salud está inundada de aprendizaje automático, pero tiene miedo a las filtraciones de privacidad. HIPAA, GDPR, regulaciones regionales: cada jurisdicción tiene regulaciones sobre los datos de los pacientes.
Modelo de diagnóstico.
Un hospital está ejecutando un conjunto de modelos de diagnóstico de aprendizaje automático que han sido aprobados por la FDA y verificados exhaustivamente. Después de que el paciente es admitido, el modelo analiza los datos de imagen y sugiere tratamientos.
Los reguladores preguntan: "¿Estás usando el modelo aprobado por la FDA? ¿O estás usando un modelo modificado? ¿Puedes probarlo?"
La respuesta tradicional: "Confía en nuestros registros." La respuesta de zkML: "Aquí hay una prueba criptográfica que demuestra que este modelo (con pesos determinados) se ejecutó en los datos de este paciente y produjo este resultado."
Los datos de los pacientes nunca abandonarán el hospital, los pesos del modelo también son estrictamente confidenciales (protegidos por propiedad intelectual), pero las pruebas relevantes se proporcionarán a los organismos reguladores, compañías de seguros y cualquier entidad que necesite verificar.
Investigación colaborativa con falta de intercambio de datos.
Varios hospitales quieren utilizar sus datos de pacientes para entrenar un modelo, pero debido a restricciones de privacidad, no pueden compartir datos, y al mismo tiempo, no pueden establecer confianza entre sí debido a su competencia.
La ventaja de zkML es: cada hospital puede probar que su entrenamiento local se completó correctamente en datos válidos. Una vez que todas las pruebas se agregan, todos obtienen mejores modelos, y nadie puede ver los datos de otros hospitales.
Juego: equidad verificable.
Los juegos no necesitan zkML para mostrar videos de gatos, pero ¿qué pasa si se trata de un juego competitivo en dinero real? Eso es otro asunto.
Oponente de IA.
Estás jugando al póker contra una IA en la computadora. ¿Cómo sabes que la IA no está haciendo trampa al ver tus cartas ocultas? ¿Cómo sabes que lo que pagaste es realmente "difícil" y no un "medio" con un nombre cambiado?
zkML: el servidor del juego probará que cada decisión de IA proviene de modelos presentados, sin trampas ni sustituciones por modelos más débiles. La prueba se genera para cada juego y se verifica por el cliente.
Modulus desarrolló RockyBot (un juego de lucha de IA) y Leela vs the World (un juego de ajedrez en cadena) como prueba de concepto. El comportamiento de la IA es verificable, los jugadores pueden confirmar que se enfrentan a una IA real.
Emparejamiento justo.
Los sistemas de emparejamiento de clasificación utilizan aprendizaje automático para emparejar jugadores. Si el algoritmo no es transparente, surgen teorías de conspiración: "¡Están emparejando deliberadamente a mis compañeros de equipo malos!" "¡Están manipulando el juego!"
zkML: prueba de que el algoritmo de emparejamiento se ejecuta correctamente, prueba de que cada jugador es evaluado por el mismo modelo, lo que hace que esas teorías de conspiración sean insostenibles.
Mercado de modelos: verificación de aprendizaje automático como servicio (MLaaS).
Has pagado por acceso a una API de nivel GPT-4. ¿Cómo sabes que realmente obtuviste GPT-4 y no un GPT-3.5 renombrado?
Ahora: confía en el proveedor.
Con zkML, cada respuesta de API viene acompañada de una prueba: "Esta salida proviene del modelo X con parámetros Y." Si el proveedor intenta usar un modelo más barato, la prueba se invalida.
Esto ha permitido que surja un mercado de modelos competitivo, ya que los proveedores no pueden engañar a nivel de modelo. Los usuarios pueden verificar el cumplimiento del acuerdo de nivel de servicio (SLA) y los precios están vinculados a la capacidad de cómputo verificada (solo pagas por la capacidad de cómputo que realmente obtienes).
Memoria de IA.
Uno de los casos de uso centrales de ICME Labs es la modelación incrustada, que puede ejecutarse en el navegador. Actualmente, es el objetivo de aplicación práctica de ZKML. Imagina que un usuario navega por el código fuente en inglés, mientras que un consumidor lo compra y consulta en japonés: no pueden auditarlo, por lo que necesitan confianza criptográfica.
O alquila un poco de memoria: confía en mí, hermano, "mi memoria de IA tiene esto..." Los modelos de clasificación pueden ser utilizados ahora para abordar este problema de confianza, creando una nueva economía de memoria de IA™️.
Qué falta en 2025.
Seamos sinceros sobre los lugares donde las cosas aún no funcionan:
¿Implementar un modelo de lenguaje grande como GPT-5 en zkML? Imposible. Tal vez se pueda usar GPT-2 como demostración (zkPyTorch ya ha demostrado el rendimiento de Llama-3, pero cada token necesita 150 segundos). La inferencia de modelos de lenguaje grandes realmente avanzados puede ser factible... pero será lenta y consumirá mucha memoria.
Sistemas en tiempo real: si necesitas menos de 100 milisegundos de velocidad de inferencia y proporcionar pruebas, solo puedes elegir modelos más pequeños o modelos de clasificación más directos. ¿Es necesario probar cada decisión de un automóvil autónomo? Actualmente, zkML no puede lograr eso.
En términos de entrenamiento, podemos probar la capacidad de inferencia, pero no podemos probar la capacidad de entrenamiento a gran escala. Si necesitas verificar si un modelo fue entrenado con datos específicos y métodos específicos, zkML actualmente no puede cumplir esa necesidad.
Arquitecturas complejas: los mecanismos de atención acaban de volverse posibles. ¿Modelos de mezcla de expertos? ¿Redes neuronales gráficas? ¿Modelos de difusión? Estos aún son áreas de investigación.
Predicción de ZKML para 2026.
Aquí hay algunas suposiciones básicas sobre el contenido que se desbloqueará 10 veces en 2026.
Olas de hardware.
El desbloqueo de chips de silicio es justo.
Aceleración de GPU (ya disponible): todos los marcos zkML principales han agregado o están agregando soporte para GPU. EZKL, Lagrange, zkPyTorch, Jolt - todos funcionan sobre CUDA, pero el soporte para GPU en 2025 solo significa "puede ejecutarse en GPU", mientras que en 2026 será "ha sido optimizado para GPU".
La diferencia es crucial. La forma actual de implementación es portar algoritmos de CPU a GPU, mientras que la próxima generación de implementaciones rediseñará algoritmos en torno a primitivos de GPU, procesando en paralelo a gran escala y transfiriendo datos a través de la memoria de la GPU. La fusión de núcleos se utiliza para generar pruebas.
Impacto esperado: aumento de velocidad de 5-10 veces para las cargas de trabajo existentes. Un modelo que originalmente tardaba 30 segundos puede completarse en solo 3-5 segundos. Esta es la diferencia entre "adecuado para procesamiento por lotes" y "adecuado para aplicaciones interactivas".
Pruebas entre múltiples máquinas (capa de coordinación).
Último zkML: una máquina potente puede generar tus pruebas.
2026 zkML: la generación de pruebas se paraleliza en clústeres, se divide el circuito y se distribuye a múltiples probadores (plegados múltiples), se agregan resultados.
Lagrange ya está investigando este problema, y Polyhedra también lo mencionó en su hoja de ruta de zkPyTorch. La tecnología relevante ya existe (pruebas recursivas, agregación de pruebas, continuidad). Nuestra capa de infraestructura NovaNet se centra en cómo los probadores colaborativos (a través de esquemas de plegado) manejan esta tarea, y la ingeniería es muy difícil (asignación de trabajo, tolerancia a fallos, optimización de costos).
Cuando esta tecnología se ponga en uso: ejecuta pruebas simultáneamente en 10 máquinas, el tiempo de cálculo de GPT-2 puede reducirse de 10 minutos a 1 minuto, mientras que la prueba de Llama-3 pasará de "curioso" a "realmente útil".
Sistema de pruebas: mejor matemática.
El hardware ayuda, pero mejores algoritmos ayudan más.
Aritmética de dominio.
Actualmente, la mayoría de las soluciones de conocimiento cero (ZKML) utilizan BN254 o dominios grandes similares. Algunos equipos están explorando dominios más pequeños como Mersenne-31, cuyo rendimiento podría ser más rápido. Se estima que solo el cambio de dominio puede proporcionar un aumento del rendimiento de 10 veces. Los sistemas basados en curvas elípticas continúan beneficiándose de la esparsidad (por ejemplo, Twist y Shout).
El esquema de prueba de conocimiento cero basado en Lattice nos permite aprovechar estos dominios más pequeños, al tiempo que se beneficia de la esparsidad y la homomorfismo. Lattice también admite el pago por bit y puede tener características de seguridad post-cuántica, y el último punto destacado es que se pueden generar dinámicamente parámetros públicos.
Importancia: La operación de dominio es el ciclo interno más profundo de la generación de pruebas; mejorar la velocidad de operación de dominio en 10 veces significa que la velocidad de todo el proceso de prueba puede aumentar 10 veces. Un modelo que originalmente tardaba 10 segundos en completar la prueba ahora solo necesita 1 segundo.
Jolt Atlas se ha beneficiado de esto: la arquitectura centrada en búsquedas combina bien con la esparsidad. Algunas operaciones de aprendizaje automático tienen una alta esparsidad.
Acumulación de pruebas / esquemas de plegado.
ZKTorch adoptó este enfoque: no genera pruebas independientes para cada capa, sino que combina múltiples pruebas en un acumulador. La prueba final es muy pequeña, independientemente de la profundidad del modelo.
Este es el dominio de las novas / supernovas / novas de neutrones ⭐💥, SNARKs recursivos, que te permiten probar "probé A, luego probé B, luego probé C" sin que la escala de la prueba explote.
Predicción para 2026: esto se convertirá en estándar. Cada marco zkML agregará funciones de plegado. El tamaño del archivo de prueba de ResNet-50 se reducirá de 1.27GB (versión anterior de Mystique) a menos de 100KB (nuevo sistema basado en plegado). Dado que el tamaño del archivo de prueba ya no se expande con la longitud de la secuencia, los modelos tipo GPT se volverán viables.
El plegado también ayuda a resolver problemas de falta de memoria en el probador. Puedes ejecutar zkML en múltiples dispositivos y elegir pasos que coincidan con las especificaciones de la máquina.
Finalmente, el plegado también se puede utilizar para otorgar conocimiento cero (ZK) a protocolos que no tienen características de protección de la privacidad. Hay un gran truco en el documento de HyperNova que muestra cómo hacerlo.
Pruebas de flujo.
Restricción actual: Para probar un LLM que genera 100 tokens, necesitas probar el token 1, luego el token 2, luego el token 3... Cada prueba es independiente, lo que provoca un aumento dramático en el uso de memoria. Puedes controlar el crecimiento de la memoria mediante plegado o procesamiento en flujo.
Aún está en la fase de investigación, pero se lanzará en 2026. Para entonces: la inferencia de LLM en zkML pasará de "probar en máquinas grandes" a "probar en cualquier lugar".
Cobertura de operadores en crecimiento explosivo.
Ten en cuenta: ONNX tiene más de 120 operadores, la mayoría de los marcos solo admiten alrededor de 50.
La brecha se está cerrando rápidamente, no porque los marcos estén implementando operadores uno por uno, sino porque están construyendo compiladores de operadores y primitivos zkVM universales para manejar grandes cantidades de operadores a gran escala.
Elementos básicos del Transformer.
Los mecanismos de atención serán casi imposibles de implementar en 2024, pero para finales de 2025, varios marcos los admitirán, y en 2026 serán optimizados.
Circuitos dedicados:
Atención de producto escalar.
Atención multi-cabeza.
Codificación de posición.
Normalización de capa (el asesino de Transformer en los primeros zkML).
Combinando pruebas de flujo, esto significa: los modelos basados en Transformer se convierten en ciudadanos de primera clase en zkML. No solo "podemos probar lentamente GPT-2", sino que "podemos probar arquitecturas modernas de Transformer a un costo razonable".
Esto desbloqueará transformadores visuales, modelos de audio y modelos multimodales. Todas las arquitecturas que sustentan el aprendizaje automático moderno ahora son verificables.
Los cambios en la curva de costos han llevado a la evolución de los casos de uso.
Las mejoras tecnológicas en sí mismas no son importantes; lo importante es lo que pueden traer.
Agentes DeFi: de procesamiento por lotes a tiempo real.
2025: el agente reequilibra tu cartera cada hora. Cada reequilibrio generará una prueba en segundo plano. En el siguiente intercambio, la prueba anterior ya estará lista.
2026: Los agentes reequilibran en tiempo real según las condiciones del mercado. El tiempo de generación de pruebas será de 1 a 5 segundos. Los agentes funcionarán en un ciclo continuo: observar el mercado → calcular decisiones → generar pruebas → ejecutar transacciones. Las pruebas estarán disponibles antes de que se confirme en el siguiente bloque.
Esto cambia las reglas del juego. Puedes construir agentes reactivos, no solo agentes temporizados, protección contra colapsos relámpago, defensa contra MEV, arbitraje automático con garantías criptográficas.
Cuidado de la salud: desde registros de auditoría hasta verificación en tiempo real.
2025: los hospitales realizan diagnósticos, el modelo genera resultados, los hospitales luego envían pruebas a los reguladores. La generación de pruebas toma solo unos minutos y se completa sin conexión.
2026: La velocidad de generación de resultados de verificación será lo suficientemente rápida como para completarse en flujos de trabajo clínicos. Los médicos emiten órdenes de detección, el modelo se ejecuta, los resultados de verificación se generan en paralelo. Cuando los médicos revisan los resultados, los resultados de verificación ya se han presentado junto con los resultados.
Esto permite: auditoría de cumplimiento en tiempo real, preautorización de verificación instantánea, y flujos de trabajo interinstitucionales donde cada paso debe ser verificado antes de iniciar el siguiente.
Agentes sin confianza: de la demostración a la producción.
2025: flujos de trabajo de agentes viables, pero complicados. Cada interacción entre agentes requiere la generación de pruebas, que puede tardar desde segundos hasta minutos. Los flujos de trabajo complejos son lentos.
2026: Para modelos simples, la velocidad de prueba puede alcanzar niveles sub-segundo. Para modelos complejos, la velocidad de prueba puede paralelizarse. La interacción entre agentes será más natural y fluida. El agente A invoca al agente B, espera 0.5 segundos para verificar la prueba y luego continúa ejecutando. Aunque la demora es molesta, es mucho mejor que la operación manual 🤪.
Este es el verdadero momento en que una red de agentes sin confianza puede escalar, no es un proyecto de investigación, sino un sistema de producción donde centenas de agentes colaboran, cada uno probando su trabajo de forma criptográfica.
La visión de x402 / ERC-8004 se está convirtiendo en realidad: los agentes contratan agentes, pagan con criptomonedas, todo mediado por pruebas.
Juego: de por turnos a en tiempo real.
2025: las aplicaciones de zkML en juegos se limitarán a escenarios por turnos, como robots de póker, motores de ajedrez y juegos de estrategia que pueden tolerar una generación de prueba de 1-5 segundos por movimiento.
2026: La velocidad será suficiente para satisfacer las demandas de IA en tiempo real de ciertos tipos de juegos. Por ejemplo, en juegos de lucha, cada decisión del oponente de IA necesita ser verificada, y en juegos RTS, las decisiones estratégicas (no el trazado de caminos a nivel de unidad, sino tácticas de alto nivel) necesitan ser verificadas.
Para los juegos de disparos en primera persona o mecanismos de juego que requieren velocidad de reacción, la velocidad sigue sin ser lo suficientemente rápida, pero el espacio de diseño viable se ha ampliado enormemente.
Mercado de modelos: de mercado de nicho a mercado masivo.
2025: Verificar respuestas de API es genial, pero el alcance de la aplicación es limitado. Solo las aplicaciones de alto valor merecen este costo adicional.
2026: Reducción significativa de costos. Para cualquier API que cobre más de 0.01 dólares por cada llamada, la verificación se convertirá en un proceso estándar. Los proveedores de modelos competirán en función de la verificabilidad, y la "inferencia no verificada" será un servicio de nivel de entrada.
Esto puede lograr: hacer cumplir acuerdos de nivel de servicio (SLA) mediante criptografía, proporcionar pruebas de trabajo para servicios de inteligencia artificial y establecer sistemas de reputación basados en un historial de cálculo verificado.
Memoria de IA verificable: creando valor compartido.
2025: ya hemos utilizado ZKML para probar cosas relacionadas con bases de datos de vectores y clasificación, este caso de uso logrará una escalabilidad masiva en 2026.
2026: AI compartido sin confianza en línea, tu asistente de IA ya no tiene una memoria única: coordinará múltiples memorias verificadas, incluyendo memorias personales, corporativas y de experiencia.
En última instancia.
Desarrollar un plan paso a paso y hacer saltos revolucionarios de vez en cuando: ¡suscríbete para conocer esos saltos!
El banquete de ZKML ya ha comenzado: hemos demostrado que es posible verificar el aprendizaje automático utilizando pruebas de conocimiento cero (ZKP). Ahora, estamos entrando en una fase un poco aburrida: ingenieros e investigadores están trabajando para hacerlo más rápido, más barato y más confiable.
En un evento, escuché a un capitalista de riesgo de criptomonedas decir: "¡Este año el ZK es aburrido!"
El aburrimiento es algo bueno; el aburrimiento significa que se está volviendo real.
Autor: Wyatt Benno (fundador de Kinic).
Traducción: Catherine.
#KINIC #zkml #ICP生态 #AI 
Contenido IC que te interesa.
Progreso técnico | Información del proyecto | Actividades globales.
Sigue el canal de Binance de IC.
Mantente informado.
Guía de autoridad ZKML (2025)

Últimas noticias