Template duplizieren

Klon von: LM-Eval ALL · Felder vorausgefüllt — nur anpassen, was sich unterscheidet.
Abbrechen
1 Benchmarks
2 Tags & Notizen
Frei wählbar — beschreibt das Test-Set, nicht ein Modell.
Sanity-Checks (Baseline) laufen automatisch
Cold-Start, Throughput und Sanity werden bei jedem Run vor den konfigurierten Adaptern ausgeführt — nicht abwählbar.

1. Benchmarks

Mindestens einen Adapter aktivieren. Pass/Fail-Schwelle ist optional — leer lassen für Adapter-Default.
Geschätzte Gesamt-Laufzeit
Summe der aktivierten Tests. Gilt für RTX-5080-Klasse-Hardware mit lokalem Inference-Endpoint; auf langsamerer Hardware entsprechend skalieren.
AST-basierte Function-Calling-Auswertung in zwei Stufen (generate + evaluate). Modus FC oder Prompt.
Nur single_turn-Kategorie (8 Sub-Kategorien Alias-expandiert auf ~3641 Items). Standard für ersten Adapter-Smoke und schnelles Modellscreening — rechne mit 1-5h je nach Modell-Geschwindigkeit.
Kategorien: single_turn
single_turn (~3641) + multi_turn (~800) = ~4441 Items. Repräsentative Function-Calling-Bewertung — guter Default für Modellvergleiche. Rechne mit 1.5-6h je nach Modell.
Kategorien: single_turn, multi_turn
single_turn (~3641) + live (~2251) = ~5892 Items (echte User-Prompts statt kuratierter). Realitätsnähere Schwierigkeit. Rechne mit 2-8h je nach Modell.
Kategorien: single_turn, live
Kompletter v4-Lauf über alle 9 Kategorien (~12233 Items). Vollständigste Bewertungstiefe. Rechne mit 3.5-17h je nach Modell — für Übernacht-Läufe gedacht.
Kategorien: single_turn, multi_turn, live, non_live, python, non_python, agentic, web_search, memory
Power-User-Modus für eigene Kategorie-Kombinationen.
EleutherAI Harness — GSM8K, HumanEval, IFEval. Subprozess-Aufruf `lm_eval`.
Schnellauswahl:
YAML-konfigurierte Eval-Suiten (Custom-Tests, RAG-Cases, Tool-Calls). Ergebnisse über `promptfoo eval -o json`.
Keine Promptfoo-Suiten gefunden. Lege YAML-Dateien unter etc/promptfoo-suites/ ab — Beispiele in etc/promptfoo-suites/onyx-rag.yaml.
Issue-basierte Code-Reparatur via Docker-Sandbox. Eine Sample-Zeile pro Issue.
Kuratierte Subsets garantieren Vergleichbarkeit zwischen Runs. Issues werden deterministisch (lexikografisch sortiert) aus dem Dataset geladen.
Erste 10 Lite-Issues nach instance_id. Gut für Pipeline-Verifikation.
Erste 50 Lite-Issues. Modellvergleich mit überschaubarer Wartezeit.
Komplettes Lite-Set. Standard für veröffentlichbare Zahlen.
Erste 10 Verified-Issues. Höhere Qualität als Lite, aber kleines Sample.
Erste 100 Verified-Issues. Repräsentatives Vergleichs-Sample.
Komplettes Verified-Set. OpenAI-validierte Vergleichsbasis.
Power-User-Modus für Reproduktion eines spezifischen Sets. Verzichtet auf die Vergleichbarkeits-Garantie der Presets.

2. Tags & Notizen