Templates

Wiederverwendbare Test-Set-Definitionen — Benchmarks, Tags. Provider und Modell wählst du beim „Zu Queue hinzufügen"-Modal.

Name	Default-Provider	Default-Modell	Benchmarks	Geschätzte Laufzeit	Tags	Aktionen
Qwen-3-Coder ALL	— (per Modal)	— (per Modal)	bfcl · 1 lm_eval_harness · 1 swe_bench · 1	1,8 h–6,2 h	—	Bearbeiten Duplizieren Run aus Template „" enqueuen Provider Modelle ( von gewählt)
LM-Eval ALL	— (per Modal)	— (per Modal)	lm_eval_harness · 2 swe_bench · 1	53 min–1,4 h	—	Bearbeiten Duplizieren Run aus Template „" enqueuen Provider Modelle ( von gewählt)
SWE-Bench-Quick / BCFL Quick	— (per Modal)	— (per Modal)	bfcl · 1 swe_bench · 1	50 min–1,4 h	—	Bearbeiten Duplizieren Run aus Template „" enqueuen Provider Modelle ( von gewählt)
BFCL - Short	— (per Modal)	— (per Modal)	baseline · 3 bfcl · 1	1,0 h–5,0 h	—	Bearbeiten Duplizieren Run aus Template „" enqueuen Provider Modelle ( von gewählt)
Kurzcheck	— (per Modal)	— (per Modal)	baseline · 3 lm_eval_harness · 3	28 min–45 min	—	Bearbeiten Duplizieren Run aus Template „" enqueuen Provider Modelle ( von gewählt)