Samples · bfcl.single_turn
KI-Auswertung
Generiert 2026-05-12 19:42 · claude-sonnet-4-6Zusammenfassung
Der Sub-Benchmark „Single-Turn Function Calling" liefert keinerlei auswertbare Ergebnisse, da weder Erfolge noch Fehler noch Testfälle verzeichnet wurden. Die Pass-Rate ist undefiniert (null), was auf ein strukturelles Problem bei der Ausführung hindeutet.
Stärken
- Keine Laufzeitfehler (errors: 0), d.h. das Modell hat keine Abstürze oder unbehandelte Ausnahmen verursacht
- Keine expliziten Failures registriert
Schwächen
- Vollständig fehlende Testergebnisse: 0 Samples insgesamt
- Pass-Rate und Score sind nicht berechenbar
- Keine Grundlage für eine inhaltliche Bewertung des Modells
Auffälligkeiten
Die auffälligste Beobachtung ist, dass der Adapter keine einzige Stichprobe verarbeitet hat. Dies ist kein Modellversagen, sondern deutet auf ein Konfigurationsproblem hin: entweder wurde der Datensatz nicht geladen, der Adapter-Aufruf schlug lautlos fehl, oder die Verbindung zwischen Benchmark-Runner und Modell (`mlx-community/Qwen3-Coder-Next`) wurde nie hergestellt. Da errors ebenfalls 0 sind, wurde der Fehler offenbar nicht propagiert.
Empfehlung
Vor einer inhaltlichen Bewertung des Modells muss die Pipeline-Konfiguration geprüft werden: Datenpfad des BFCL-Datensatzes verifizieren, den Adapter-Aufruf mit einem minimalen Einzeltest debuggen und sicherstellen, dass das MLX-Modell korrekt geladen wird. Erst nach erfolgreicher Ausführung mit messbaren Samples ist eine Bewertung der Function-Calling-Fähigkeiten möglich.
Übersicht
0 Samples| Frage-ID | Status | Score | Prompt | Latenz | Tokens/s | TTFT | |
|---|---|---|---|---|---|---|---|
|
Keine Samples
Dieser Benchmark hat keine persistierten Samples (etwa weil der Adapter im Health-Check failed ist).
| |||||||