Templates
Wiederverwendbare Test-Set-Definitionen — Benchmarks, Tags. Provider und Modell wählst du beim „Zu Queue hinzufügen"-Modal.
| Name | Default-Provider | Default-Modell | Benchmarks | Geschätzte Laufzeit | Tags | Aktionen |
|---|---|---|---|---|---|---|
| Qwen-3-Coder ALL | — (per Modal) | — (per Modal) | bfcl · 1 lm_eval_harness · 1 swe_bench · 1 | 1,8 h–6,2 h | — | Bearbeiten Duplizieren |
| LM-Eval ALL | — (per Modal) | — (per Modal) | lm_eval_harness · 2 swe_bench · 1 | 53 min–1,4 h | — | Bearbeiten Duplizieren |
| SWE-Bench-Quick / BCFL Quick | — (per Modal) | — (per Modal) | bfcl · 1 swe_bench · 1 | 50 min–1,4 h | — | Bearbeiten Duplizieren |
| BFCL - Short | — (per Modal) | — (per Modal) | baseline · 3 bfcl · 1 | 1,0 h–5,0 h | — | Bearbeiten Duplizieren |
| Kurzcheck | — (per Modal) | — (per Modal) | baseline · 3 lm_eval_harness · 3 | 28 min–45 min | — | Bearbeiten Duplizieren |