Samples · bfcl.single_turn

Run #68 · Adapter v1.0.0 · 0/0 Samples angezeigt

KI-Auswertung

Generiert 2026-05-12 19:42 · claude-sonnet-4-6

Zusammenfassung

Der Sub-Benchmark „Single-Turn Function Calling" liefert keinerlei auswertbare Ergebnisse, da weder Erfolge noch Fehler noch Testfälle verzeichnet wurden. Die Pass-Rate ist undefiniert (null), was auf ein strukturelles Problem bei der Ausführung hindeutet.

Stärken

Keine Laufzeitfehler (errors: 0), d.h. das Modell hat keine Abstürze oder unbehandelte Ausnahmen verursacht
Keine expliziten Failures registriert

Schwächen

Vollständig fehlende Testergebnisse: 0 Samples insgesamt
Pass-Rate und Score sind nicht berechenbar
Keine Grundlage für eine inhaltliche Bewertung des Modells

Auffälligkeiten

Die auffälligste Beobachtung ist, dass der Adapter keine einzige Stichprobe verarbeitet hat. Dies ist kein Modellversagen, sondern deutet auf ein Konfigurationsproblem hin: entweder wurde der Datensatz nicht geladen, der Adapter-Aufruf schlug lautlos fehl, oder die Verbindung zwischen Benchmark-Runner und Modell (`mlx-community/Qwen3-Coder-Next`) wurde nie hergestellt. Da errors ebenfalls 0 sind, wurde der Fehler offenbar nicht propagiert.

Empfehlung

Vor einer inhaltlichen Bewertung des Modells muss die Pipeline-Konfiguration geprüft werden: Datenpfad des BFCL-Datensatzes verifizieren, den Adapter-Aufruf mit einem minimalen Einzeltest debuggen und sicherstellen, dass das MLX-Modell korrekt geladen wird. Erst nach erfolgreicher Ausführung mit messbaren Samples ist eine Bewertung der Function-Calling-Fähigkeiten möglich.

Übersicht

0 Samples

Verteilung

Score-Histogramm

0.0 ────── 1.0

	Frage-ID	Status	Score	Prompt	Latenz	Tokens/s	TTFT
Keine Samples Dieser Benchmark hat keine persistierten Samples (etwa weil der Adapter im Health-Check failed ist).