Samples · bfcl.single_turn
KI-Auswertung
Generiert 2026-05-13 03:59 · claude-sonnet-4-6Zusammenfassung
Der Sub-Benchmark „Single-Turn Function Calling" liefert keinerlei auswertbare Ergebnisse, da weder Erfolge noch Fehler noch Samples vorliegen. Die Pass-Rate ist undefiniert (null), was auf ein fundamentales Ausführungsproblem hinweist.
Stärken
- Keine Laufzeitfehler (errors: 0), das Modell hat sich nicht abgestürzt oder ungültige Ausgaben erzeugt
- Die Infrastruktur scheint stabil zu sein, da keine Exceptions geloggt wurden
Schwächen
- Null ausgewertete Samples — der Benchmark hat de facto nicht stattgefunden
- Kein Score, keine Pass-Rate: Es lässt sich absolut keine Aussage über die Modell-Qualität treffen
- Das Modell `mlx-community/Qwen3-Coder-Next` ist vollständig unbewertet geblieben
Auffälligkeiten
Das auffälligste Muster ist das vollständige Fehlen jeglicher Samples (successes, failures, errors sind allesamt leere Listen). Dies deutet nicht auf ein Modellproblem hin, sondern auf ein Problem im Benchmark-Setup selbst: möglicherweise wurde der Datensatz nicht geladen, der Adapter nicht korrekt initialisiert oder die Verbindung zum Test-Backend unterbrochen. Es handelt sich um einen strukturellen Ausführungsfehler, nicht um ein Inferenz-Problem.
Empfehlung
Vor jeder inhaltlichen Modell-Bewertung muss die Benchmark-Pipeline debuggt werden: Datensatz-Pfad und BFCL-Adapter-Konfiguration für `single_turn` prüfen, sicherstellen dass die Testfälle korrekt geladen und an das Modell weitergegeben werden, und den Benchmark anschließend erneut ausführen.
Übersicht
0 Samples| Frage-ID | Status | Score | Prompt | Latenz | Tokens/s | TTFT | |
|---|---|---|---|---|---|---|---|
|
Keine Samples
Der Adapter brach mit folgendem Grund ab:BFCL-Output fehlt für single_turn
| |||||||