Templates

Wiederverwendbare Test-Set-Definitionen — Benchmarks, Tags. Provider und Modell wählst du beim „Zu Queue hinzufügen"-Modal.
Name Default-Provider Default-Modell Benchmarks Geschätzte Laufzeit Tags Aktionen
Qwen-3-Coder ALL — (per Modal) — (per Modal) bfcl · 1 lm_eval_harness · 1 swe_bench · 1 1,8 h–6,2 h Bearbeiten Duplizieren
LM-Eval ALL — (per Modal) — (per Modal) lm_eval_harness · 2 swe_bench · 1 53 min–1,4 h Bearbeiten Duplizieren
SWE-Bench-Quick / BCFL Quick — (per Modal) — (per Modal) bfcl · 1 swe_bench · 1 50 min–1,4 h Bearbeiten Duplizieren
BFCL - Short — (per Modal) — (per Modal) baseline · 3 bfcl · 1 1,0 h–5,0 h Bearbeiten Duplizieren
Kurzcheck — (per Modal) — (per Modal) baseline · 3 lm_eval_harness · 3 28 min–45 min Bearbeiten Duplizieren