Samples · bfcl.single_turn

Run #68 · Adapter v1.0.0 · 0/0 Samples angezeigt
‹ Zurück zum Run-Detail

KI-Auswertung

Generiert 2026-05-12 19:42 · claude-sonnet-4-6

Zusammenfassung

Der Sub-Benchmark „Single-Turn Function Calling" liefert keinerlei auswertbare Ergebnisse, da weder Erfolge noch Fehler noch Testfälle verzeichnet wurden. Die Pass-Rate ist undefiniert (null), was auf ein strukturelles Problem bei der Ausführung hindeutet.

Stärken

  • Keine Laufzeitfehler (errors: 0), d.h. das Modell hat keine Abstürze oder unbehandelte Ausnahmen verursacht
  • Keine expliziten Failures registriert

Schwächen

  • Vollständig fehlende Testergebnisse: 0 Samples insgesamt
  • Pass-Rate und Score sind nicht berechenbar
  • Keine Grundlage für eine inhaltliche Bewertung des Modells

Auffälligkeiten

Die auffälligste Beobachtung ist, dass der Adapter keine einzige Stichprobe verarbeitet hat. Dies ist kein Modellversagen, sondern deutet auf ein Konfigurationsproblem hin: entweder wurde der Datensatz nicht geladen, der Adapter-Aufruf schlug lautlos fehl, oder die Verbindung zwischen Benchmark-Runner und Modell (`mlx-community/Qwen3-Coder-Next`) wurde nie hergestellt. Da errors ebenfalls 0 sind, wurde der Fehler offenbar nicht propagiert.

Empfehlung

Vor einer inhaltlichen Bewertung des Modells muss die Pipeline-Konfiguration geprüft werden: Datenpfad des BFCL-Datensatzes verifizieren, den Adapter-Aufruf mit einem minimalen Einzeltest debuggen und sicherstellen, dass das MLX-Modell korrekt geladen wird. Erst nach erfolgreicher Ausführung mit messbaren Samples ist eine Bewertung der Function-Calling-Fähigkeiten möglich.

Übersicht

0 Samples
Verteilung
Score-Histogramm
0 – 0.1: 0 0.1 – 0.2: 0 0.2 – 0.3: 0 0.3 – 0.4: 0 0.4 – 0.5: 0 0.5 – 0.6: 0 0.6 – 0.7: 0 0.7 – 0.8: 0 0.8 – 0.9: 0 0.9 – 1: 0
0.0 ────── 1.0
Status Score-Schwelle Score < 0.5
Frage-ID Status Score Prompt Latenz Tokens/s TTFT
Keine Samples
Dieser Benchmark hat keine persistierten Samples (etwa weil der Adapter im Health-Check failed ist).