Neues Template · LLMBench

Sanity-Checks (Baseline) laufen automatisch

Cold-Start, Throughput und Sanity werden bei jedem Run vor den konfigurierten Adaptern ausgeführt — nicht abwählbar.

Geschätzte Gesamt-Laufzeit —

Summe der aktivierten Tests. Gilt für RTX-5080-Klasse-Hardware mit lokalem Inference-Endpoint; auf langsamerer Hardware entsprechend skalieren.

BFCL · Berkeley Function Calling Leaderboard v1.0.0+v4-layout-aliases+reasoning —

AST-basierte Function-Calling-Auswertung in zwei Stufen (generate + evaluate). Modus FC oder Prompt.

Preset

Nur single_turn-Kategorie (8 Sub-Kategorien Alias-expandiert auf ~3641 Items). Standard für ersten Adapter-Smoke und schnelles Modellscreening — rechne mit 1-5h je nach Modell-Geschwindigkeit.
Kategorien: single_turn

single_turn (~3641) + multi_turn (~800) = ~4441 Items. Repräsentative Function-Calling-Bewertung — guter Default für Modellvergleiche. Rechne mit 1.5-6h je nach Modell.
Kategorien: single_turn, multi_turn

single_turn (~3641) + live (~2251) = ~5892 Items (echte User-Prompts statt kuratierter). Realitätsnähere Schwierigkeit. Rechne mit 2-8h je nach Modell.
Kategorien: single_turn, live

Kompletter v4-Lauf über alle 9 Kategorien (~12233 Items). Vollständigste Bewertungstiefe. Rechne mit 3.5-17h je nach Modell — für Übernacht-Läufe gedacht.
Kategorien: single_turn, multi_turn, live, non_live, python, non_python, agentic, web_search, memory

Custom Test-Kategorien

Single-Turn Function Calling Multi-Turn Function Calling Live (real-world Tools) Non-Live (curated) Python-Tools Non-Python-Tools Agentic (Multi-Step Planning) Web-Search-Tools Memory-Tools

Power-User-Modus für eigene Kategorie-Kombinationen.

Pass/Fail-Schwelle (0..1, leer = Default 0.5)

lm-evaluation-harness v1.0.0+humaneval-removed+gen-kwargs-pairing —

EleutherAI Harness — GSM8K, HumanEval, IFEval. Subprozess-Aufruf `lm_eval`.

Test-Kategorien

Schnellauswahl:

GSM8K — Grundschulmathe IFEval — Instruction Following

Pass/Fail-Schwelle (0..1, leer = Default 0.5)

Promptfoo v1.0.0 —

YAML-konfigurierte Eval-Suiten (Custom-Tests, RAG-Cases, Tool-Calls). Ergebnisse über `promptfoo eval -o json`.

Suiten

Keine Promptfoo-Suiten gefunden. Lege YAML-Dateien unter etc/promptfoo-suites/ ab — Beispiele in etc/promptfoo-suites/onyx-rag.yaml.

Pass/Fail-Schwelle (0..1, leer = Default 0.5)

SWE-bench Lite v1.0.0+patch-apply-detection —

Issue-basierte Code-Reparatur via Docker-Sandbox. Eine Sample-Zeile pro Issue.

Preset

Kuratierte Subsets garantieren Vergleichbarkeit zwischen Runs. Issues werden deterministisch (lexikografisch sortiert) aus dem Dataset geladen.

Erste 10 Lite-Issues nach instance_id. Gut für Pipeline-Verifikation.

Erste 50 Lite-Issues. Modellvergleich mit überschaubarer Wartezeit.

Komplettes Lite-Set. Standard für veröffentlichbare Zahlen.

Erste 10 Verified-Issues. Höhere Qualität als Lite, aber kleines Sample.

Erste 100 Verified-Issues. Repräsentatives Vergleichs-Sample.

Komplettes Verified-Set. OpenAI-validierte Vergleichsbasis.

Custom Issue-IDs (kommagetrennt oder zeilenweise)

Power-User-Modus für Reproduktion eines spezifischen Sets. Verzichtet auf die Vergleichbarkeits-Garantie der Presets.

Pass/Fail-Schwelle (0..1, leer = Default 0.5)

Template duplizieren

1. Benchmarks

2. Tags & Notizen