
OpenAI irrumpe en la seguridad de Ethereum con EVMbench
Desarrollada en conjunto con Paradigm, firma inversora especializada en redes blockchain, la nueva plataforma pone a prueba a los modelos de IA en tareas críticas como detectar vulnerabilidades, proponer soluciones y simular ataques dentro de la red de Ethereum.
¿Qué hace exactamente EVMbench?
La herramienta mide el desempeño de agentes de IA en tres frentes estratégicos:
1️⃣ Detección de vulnerabilidades
Los agentes analizan código abierto de Ethereum utilizando datos provenientes de auditorías públicas.
-
Identifican fallos reales documentados.
-
Evalúan el nivel de riesgo.
-
Calculan posibles recompensas de auditoría para desarrolladores.
2️⃣ Corrección de fallos
No solo detectan problemas: también proponen soluciones.
-
Modifican contratos vulnerables.
-
Mantienen la funcionalidad original.
-
Eliminan la posibilidad de explotación.
-
Validan los cambios mediante pruebas automatizadas.
El reto aquí es mayúsculo: parchar sin romper.
3️⃣ Simulación de ataques
En entornos controlados (sandbox), los agentes intentan explotar vulnerabilidades para medir su gravedad real.
OpenAI aclara que esta herramienta no refleja toda la complejidad de la seguridad en escenarios reales, pero sí ofrece un marco comparativo robusto.
Resultados iniciales
EVMbench se basa en:
-
120 vulnerabilidades reales
-
Extraídas de 40 auditorías públicas
-
Incluyendo competencias como Code4rena
En pruebas recientes:
-
El modelo GPT-5.3-Codex logró un 72,2 % de éxito explotando fallos.
-
El modelo anterior, GPT-5, alcanzaba solo un 31,9 %.
Sin embargo, en tareas de detección exhaustiva y parcheo fino, el desempeño todavía presenta limitaciones.
En muchos casos, los agentes:
-
Se detienen tras hallar un solo error.
-
Tienen dificultades para eliminar vulnerabilidades sutiles sin alterar el comportamiento del contrato.
¿Por qué es relevante?
Según la compañía, los contratos inteligentes protegen rutinariamente más de 100.000 millones de dólares en criptoactivos dentro de protocolos abiertos.
A medida que los modelos de IA mejoran su capacidad para escribir y ejecutar código, se vuelve crucial:
-
Medir su rendimiento en entornos económicamente sensibles.
-
Utilizarlos de forma defensiva para fortalecer la seguridad del ecosistema.
La auditoría automatizada podría convertirse en una pieza clave para reducir riesgos sistémicos.
Un ecosistema en plena automatización
El lanzamiento de EVMbench ocurre en un contexto donde los agentes autónomos están ganando terreno en múltiples redes:
-
Interacción con Lightning Network para gestionar liquidez.
-
Agentic Wallets en la red Base, impulsadas por Coinbase.
-
Integraciones en wallets como Phantom en Solana.
Mientras tanto, Ethereum continúa registrando niveles récord de actividad. Según datos de Token Terminal, la red alcanzó 17,3 millones de transacciones semanales, impulsadas por estándares como ERC-8004, orientado a la interoperabilidad entre agentes en economías abiertas.
EVMbench no solo evalúa inteligencia artificial: redefine cómo la IA puede convertirse en guardián —y también en atacante controlado— dentro de la infraestructura financiera descentralizada.

