Samples · bfcl.single_turn

Run #70 · Adapter v1.0.0 · 0/0 Samples angezeigt

Adapter degraded: BFCL-Output fehlt für single_turn

KI-Auswertung

Generiert 2026-05-13 03:59 · claude-sonnet-4-6

Zusammenfassung

Der Sub-Benchmark „Single-Turn Function Calling" liefert keinerlei auswertbare Ergebnisse, da weder Erfolge noch Fehler noch Samples vorliegen. Die Pass-Rate ist undefiniert (null), was auf ein fundamentales Ausführungsproblem hinweist.

Stärken

Keine Laufzeitfehler (errors: 0), das Modell hat sich nicht abgestürzt oder ungültige Ausgaben erzeugt
Die Infrastruktur scheint stabil zu sein, da keine Exceptions geloggt wurden

Schwächen

Null ausgewertete Samples — der Benchmark hat de facto nicht stattgefunden
Kein Score, keine Pass-Rate: Es lässt sich absolut keine Aussage über die Modell-Qualität treffen
Das Modell `mlx-community/Qwen3-Coder-Next` ist vollständig unbewertet geblieben

Auffälligkeiten

Das auffälligste Muster ist das vollständige Fehlen jeglicher Samples (successes, failures, errors sind allesamt leere Listen). Dies deutet nicht auf ein Modellproblem hin, sondern auf ein Problem im Benchmark-Setup selbst: möglicherweise wurde der Datensatz nicht geladen, der Adapter nicht korrekt initialisiert oder die Verbindung zum Test-Backend unterbrochen. Es handelt sich um einen strukturellen Ausführungsfehler, nicht um ein Inferenz-Problem.

Empfehlung

Vor jeder inhaltlichen Modell-Bewertung muss die Benchmark-Pipeline debuggt werden: Datensatz-Pfad und BFCL-Adapter-Konfiguration für `single_turn` prüfen, sicherstellen dass die Testfälle korrekt geladen und an das Modell weitergegeben werden, und den Benchmark anschließend erneut ausführen.

Übersicht

0 Samples

Verteilung

Score-Histogramm

0.0 ────── 1.0

	Frage-ID	Status	Score	Prompt	Latenz	Tokens/s	TTFT
Keine Samples Der Adapter brach mit folgendem Grund ab: `BFCL-Output fehlt für single_turn`