← Voltar ao catálogo
Show HN: ACE – A dynamic benchmark measuring the cost to break AI agents logo

Show HN: ACE – A dynamic benchmark measuring the cost to break AI agents

4.5(10,000 avaliações)
Pago· a partir de US$20.00/mês
Lançado em 2026

Sobre

We built Adversarial Cost to Exploit (ACE), a benchmark that measures the token expenditure an autonomous adversary must invest to breach an LLM agent. Instead of binary pass&#x2F;fail, ACE quantifies adversarial effort in dollars, enabling game-theoretic analysis of when an attack is economically rational.<p>We tested six budget-tier models (Gemini Flash-Lite, DeepSeek v3.2, Mistral Small 4, Grok 4.1 Fast, GPT-5.4 Nano, Claude Haiku 4.5) with identical agent configs and an autonomous red-teamin

Pontos positivos

  • +Mede o custo de quebrar agentes de IA
  • +Quantifica o esforço adversário em dólares
  • +Permite análise game-theórica de quando um ataque é econômica e racional

Pontos negativos

  • Limitado a modelos de LLM específicos
  • Requer configurações de agente idênticas

Você também pode gostar