Show HN: LLMadness – March Madness Model Evals
4.2(10,000 yorum)
Freemium· US$'dan itibaren20.00/ay
2026 yılında başlatıldı
Sobre
I wanted to play around with the non-coding agentic capabilities of the top LLMs so I built a model eval predicting the March Madness bracket.<p>After playing around a bit with the format, I went with the following setup:<p>- 63 single-game predictions v. full one-shot bracket<p>- Maxed out at 10 tool calls per game<p>- Upset-specific instruction in the system prompt<p>- Exponential scoring by round (1, 2, 4, 8, 16, 32)<p>There were some interesting learnings:<p>- Unsurprisingly, most brackets a
Artılar
- +Capacidade de fazer previsões de March Madness
- +Modelo de avaliação de LLMs
- +Opção de fazer previsões de jogos individuais ou um-shot bracket
Eksiler
- −Limitações no número de tool calls por jogo
- −Necessidade de instruções específicas para upsets
Você também pode gostar
Cursor
4.8(8,900)
Editor de código com IA integrada
ProgramaçãoFreemiumUS$'dan itibaren20.00/ay
Claude
4.8(9,220)
Assistente da Anthropic com foco em raciocínio longo
Escrita & TextoFreemiumUS$'dan itibaren20.00/ay
ChatGPT
4.7(18,420)
Assistente de IA conversacional da OpenAI
Escrita & TextoFreemiumUS$'dan itibaren20.00/ay