Samples · lm_eval_harness.ifeval

Run #63 · Adapter v1.0.0+humaneval-unsafe-flag · 0/0 Samples angezeigt

KI-Auswertung

Generiert 2026-05-12 02:18 · claude-sonnet-4-6

Zusammenfassung

Der Sub-Benchmark IFEval liefert keinerlei verwertbare Ergebnisse, da weder Samples ausgeführt noch Metriken berechnet wurden. Die Pass-Rate ist `null`, alle Zähler stehen auf 0.

Stärken

Keine Fehler (Errors = 0), d.h. der Adapter ist technisch nicht abgestürzt
Die Benchmark-Konfiguration selbst scheint korrekt definiert zu sein

Schwächen

Kein einziges Sample wurde verarbeitet — Successes, Failures und Errors sind alle leer
Es existiert kein Score und keine Pass-Rate, womit die Aussagekraft vollständig fehlt
Das Modell `mlx-community/Qwen3-Coder-Next` wurde für diesen Sub-Benchmark de facto nicht getestet

Auffälligkeiten

Das auffälligste Muster ist das vollständige Fehlen jeglicher Samples. Dies deutet nicht auf ein Modell-Verhalten hin, sondern auf ein infrastrukturelles oder konfiguratives Problem: Möglicherweise wurde der Dataset-Split nicht geladen, der Adapter hat die Aufgaben nicht an das Modell weitergeleitet, oder die Benchmark-Pipeline wurde vorzeitig abgebrochen. Da Errors = 0, wurde kein Laufzeitfehler protokolliert, was auf ein stilles Scheitern (silent failure) hinweist.

Empfehlung

Vor jeder weiteren Auswertung sollte geprüft werden, ob der IFEval-Datensatz korrekt heruntergeladen und vom `lm_eval_harness`-Adapter als Task registriert wurde. Konkret: Den Task-Namen `ifeval` im Harness-Log verifizieren, den Dataset-Cache prüfen und einen Testlauf mit `--limit 5` durchführen, um sicherzustellen, dass überhaupt Samples übergeben werden. Erst danach ist eine inhaltliche Bewertung des Instruction-Following-Verhaltens möglich.

Übersicht

0 Samples

Verteilung

Score-Histogramm

0.0 ────── 1.0

	Frage-ID	Status	Score	Prompt	Latenz	Tokens/s	TTFT
Keine Samples Dieser Benchmark hat keine persistierten Samples (etwa weil der Adapter im Health-Check failed ist).