Milestones

M4: Hardening & release
Docs, reproducibility, calibration-in-CI, observability (tracking)
No due date
•0/1 issues closed
0% complete1 open 0 closed
M3: Public website
Dual-metric public leaderboard, certificate drilldown, trajectory, CI publish
No due date
•0/2 issues closed
0% complete2 open 0 closed
M2: Fair multi-model + trustworthy judgment
Scheduler runs sessions across models fairly; hardened verifier + novelty
No due date
•0/2 issues closed
0% complete2 open 0 closed
M1: MVP
Working MVP — one model, real numbers end-to-end via pred CLI
No due date
•0/3 issues closed
0% complete3 open 0 closed

Provide feedback