Samples · lm_eval_harness.ifeval
KI-Auswertung
Generiert 2026-05-12 02:18 · claude-sonnet-4-6Zusammenfassung
Der Sub-Benchmark IFEval liefert keinerlei verwertbare Ergebnisse, da weder Samples ausgeführt noch Metriken berechnet wurden. Die Pass-Rate ist `null`, alle Zähler stehen auf 0.
Stärken
- Keine Fehler (Errors = 0), d.h. der Adapter ist technisch nicht abgestürzt
- Die Benchmark-Konfiguration selbst scheint korrekt definiert zu sein
Schwächen
- Kein einziges Sample wurde verarbeitet — Successes, Failures und Errors sind alle leer
- Es existiert kein Score und keine Pass-Rate, womit die Aussagekraft vollständig fehlt
- Das Modell `mlx-community/Qwen3-Coder-Next` wurde für diesen Sub-Benchmark de facto nicht getestet
Auffälligkeiten
Das auffälligste Muster ist das vollständige Fehlen jeglicher Samples. Dies deutet nicht auf ein Modell-Verhalten hin, sondern auf ein infrastrukturelles oder konfiguratives Problem: Möglicherweise wurde der Dataset-Split nicht geladen, der Adapter hat die Aufgaben nicht an das Modell weitergeleitet, oder die Benchmark-Pipeline wurde vorzeitig abgebrochen. Da Errors = 0, wurde kein Laufzeitfehler protokolliert, was auf ein stilles Scheitern (silent failure) hinweist.
Empfehlung
Vor jeder weiteren Auswertung sollte geprüft werden, ob der IFEval-Datensatz korrekt heruntergeladen und vom `lm_eval_harness`-Adapter als Task registriert wurde. Konkret: Den Task-Namen `ifeval` im Harness-Log verifizieren, den Dataset-Cache prüfen und einen Testlauf mit `--limit 5` durchführen, um sicherzustellen, dass überhaupt Samples übergeben werden. Erst danach ist eine inhaltliche Bewertung des Instruction-Following-Verhaltens möglich.
Übersicht
0 Samples| Frage-ID | Status | Score | Prompt | Latenz | Tokens/s | TTFT | |
|---|---|---|---|---|---|---|---|
|
Keine Samples
Dieser Benchmark hat keine persistierten Samples (etwa weil der Adapter im Health-Check failed ist).
| |||||||