Samples · lm_eval_harness.mmlu

Run #63 · Adapter v1.0.0+humaneval-unsafe-flag · 0/0 Samples angezeigt
‹ Zurück zum Run-Detail

KI-Auswertung

Generiert 2026-05-12 02:17 · claude-sonnet-4-6

Zusammenfassung

Der MMLU-Sub-Benchmark wurde vollständig ohne auswertbare Ergebnisse abgeschlossen: Es liegen null Durchläufe, null Fehler und kein Score vor. Das Modell wurde faktisch nicht getestet.

Stärken

  • Keine technischen Laufzeitfehler (Errors = 0), die Pipeline selbst ist stabil
  • Kein offensichtlicher Absturz oder kritischer Integrationsfehler

Schwächen

  • Pass-Rate ist `null`, kein einziges Sample wurde verarbeitet
  • Kein Score vorhanden, damit ist das Modell für diesen Benchmark vollständig unbewertet
  • Successes, Failures und Errors sind alle leer — die Evaluation hat schlicht nie begonnen oder keine Daten geliefert

Auffälligkeiten

Das Auffälligste ist das vollständige Fehlen jeglicher Samples. Dies deutet nicht auf ein Modellproblem hin, sondern auf ein Konfigurations- oder Integrationsproblem: Der Adapter `lm_eval_harness` hat entweder keine Prompts an das Modell `mlx-community/Qwen3-Coder-Next` übergeben, oder die Ergebnisse wurden nicht korrekt zurückgeliefert und aggregiert. Möglicherweise ist der MMLU-Datensatz nicht korrekt geladen worden oder es gibt einen stillen Abbruch vor der ersten Inference.

Empfehlung

Vor jeder weiteren Auswertung sollte die Datenpipeline geprüft werden: Datensatz-Download verifizieren, Adapter-Konfiguration für `lm_eval_harness` mit MMLU explizit testen und einen minimalen Einzellauf mit einem einzigen Sample durchführen, um den Datenfluss von Prompt bis Score-Aggregation zu validieren.

Übersicht

0 Samples
Verteilung
Score-Histogramm
0 – 0.1: 0 0.1 – 0.2: 0 0.2 – 0.3: 0 0.3 – 0.4: 0 0.4 – 0.5: 0 0.5 – 0.6: 0 0.6 – 0.7: 0 0.7 – 0.8: 0 0.8 – 0.9: 0 0.9 – 1: 0
0.0 ────── 1.0
Status Score-Schwelle Score < 0.5
Frage-ID Status Score Prompt Latenz Tokens/s TTFT
Keine Samples
Dieser Benchmark hat keine persistierten Samples (etwa weil der Adapter im Health-Check failed ist).