Samples · bfcl.single_turn

Run #70 · Adapter v1.0.0 · 0/0 Samples angezeigt
‹ Zurück zum Run-Detail

KI-Auswertung

Generiert 2026-05-13 03:59 · claude-sonnet-4-6

Zusammenfassung

Der Sub-Benchmark „Single-Turn Function Calling" liefert keinerlei auswertbare Ergebnisse, da weder Erfolge noch Fehler noch Samples vorliegen. Die Pass-Rate ist undefiniert (null), was auf ein fundamentales Ausführungsproblem hinweist.

Stärken

  • Keine Laufzeitfehler (errors: 0), das Modell hat sich nicht abgestürzt oder ungültige Ausgaben erzeugt
  • Die Infrastruktur scheint stabil zu sein, da keine Exceptions geloggt wurden

Schwächen

  • Null ausgewertete Samples — der Benchmark hat de facto nicht stattgefunden
  • Kein Score, keine Pass-Rate: Es lässt sich absolut keine Aussage über die Modell-Qualität treffen
  • Das Modell `mlx-community/Qwen3-Coder-Next` ist vollständig unbewertet geblieben

Auffälligkeiten

Das auffälligste Muster ist das vollständige Fehlen jeglicher Samples (successes, failures, errors sind allesamt leere Listen). Dies deutet nicht auf ein Modellproblem hin, sondern auf ein Problem im Benchmark-Setup selbst: möglicherweise wurde der Datensatz nicht geladen, der Adapter nicht korrekt initialisiert oder die Verbindung zum Test-Backend unterbrochen. Es handelt sich um einen strukturellen Ausführungsfehler, nicht um ein Inferenz-Problem.

Empfehlung

Vor jeder inhaltlichen Modell-Bewertung muss die Benchmark-Pipeline debuggt werden: Datensatz-Pfad und BFCL-Adapter-Konfiguration für `single_turn` prüfen, sicherstellen dass die Testfälle korrekt geladen und an das Modell weitergegeben werden, und den Benchmark anschließend erneut ausführen.

Übersicht

0 Samples
Verteilung
Score-Histogramm
0 – 0.1: 0 0.1 – 0.2: 0 0.2 – 0.3: 0 0.3 – 0.4: 0 0.4 – 0.5: 0 0.5 – 0.6: 0 0.6 – 0.7: 0 0.7 – 0.8: 0 0.8 – 0.9: 0 0.9 – 1: 0
0.0 ────── 1.0
Status Score-Schwelle Score < 0.5
Frage-ID Status Score Prompt Latenz Tokens/s TTFT
Keine Samples
Der Adapter brach mit folgendem Grund ab:
BFCL-Output fehlt für single_turn