Samples · lm_eval_harness.ifeval

Run #63 · Adapter v1.0.0+humaneval-unsafe-flag · 0/0 Samples angezeigt
‹ Zurück zum Run-Detail

KI-Auswertung

Generiert 2026-05-12 02:18 · claude-sonnet-4-6

Zusammenfassung

Der Sub-Benchmark IFEval liefert keinerlei verwertbare Ergebnisse, da weder Samples ausgeführt noch Metriken berechnet wurden. Die Pass-Rate ist `null`, alle Zähler stehen auf 0.

Stärken

  • Keine Fehler (Errors = 0), d.h. der Adapter ist technisch nicht abgestürzt
  • Die Benchmark-Konfiguration selbst scheint korrekt definiert zu sein

Schwächen

  • Kein einziges Sample wurde verarbeitet — Successes, Failures und Errors sind alle leer
  • Es existiert kein Score und keine Pass-Rate, womit die Aussagekraft vollständig fehlt
  • Das Modell `mlx-community/Qwen3-Coder-Next` wurde für diesen Sub-Benchmark de facto nicht getestet

Auffälligkeiten

Das auffälligste Muster ist das vollständige Fehlen jeglicher Samples. Dies deutet nicht auf ein Modell-Verhalten hin, sondern auf ein infrastrukturelles oder konfiguratives Problem: Möglicherweise wurde der Dataset-Split nicht geladen, der Adapter hat die Aufgaben nicht an das Modell weitergeleitet, oder die Benchmark-Pipeline wurde vorzeitig abgebrochen. Da Errors = 0, wurde kein Laufzeitfehler protokolliert, was auf ein stilles Scheitern (silent failure) hinweist.

Empfehlung

Vor jeder weiteren Auswertung sollte geprüft werden, ob der IFEval-Datensatz korrekt heruntergeladen und vom `lm_eval_harness`-Adapter als Task registriert wurde. Konkret: Den Task-Namen `ifeval` im Harness-Log verifizieren, den Dataset-Cache prüfen und einen Testlauf mit `--limit 5` durchführen, um sicherzustellen, dass überhaupt Samples übergeben werden. Erst danach ist eine inhaltliche Bewertung des Instruction-Following-Verhaltens möglich.

Übersicht

0 Samples
Verteilung
Score-Histogramm
0 – 0.1: 0 0.1 – 0.2: 0 0.2 – 0.3: 0 0.3 – 0.4: 0 0.4 – 0.5: 0 0.5 – 0.6: 0 0.6 – 0.7: 0 0.7 – 0.8: 0 0.8 – 0.9: 0 0.9 – 1: 0
0.0 ────── 1.0
Status Score-Schwelle Score < 0.5
Frage-ID Status Score Prompt Latenz Tokens/s TTFT
Keine Samples
Dieser Benchmark hat keine persistierten Samples (etwa weil der Adapter im Health-Check failed ist).