Samples · lm_eval_harness.mmlu

Run #63 · Adapter v1.0.0+humaneval-unsafe-flag · 0/0 Samples angezeigt

KI-Auswertung

Generiert 2026-05-12 02:17 · claude-sonnet-4-6

Zusammenfassung

Der MMLU-Sub-Benchmark wurde vollständig ohne auswertbare Ergebnisse abgeschlossen: Es liegen null Durchläufe, null Fehler und kein Score vor. Das Modell wurde faktisch nicht getestet.

Stärken

Keine technischen Laufzeitfehler (Errors = 0), die Pipeline selbst ist stabil
Kein offensichtlicher Absturz oder kritischer Integrationsfehler

Schwächen

Pass-Rate ist `null`, kein einziges Sample wurde verarbeitet
Kein Score vorhanden, damit ist das Modell für diesen Benchmark vollständig unbewertet
Successes, Failures und Errors sind alle leer — die Evaluation hat schlicht nie begonnen oder keine Daten geliefert

Auffälligkeiten

Das Auffälligste ist das vollständige Fehlen jeglicher Samples. Dies deutet nicht auf ein Modellproblem hin, sondern auf ein Konfigurations- oder Integrationsproblem: Der Adapter `lm_eval_harness` hat entweder keine Prompts an das Modell `mlx-community/Qwen3-Coder-Next` übergeben, oder die Ergebnisse wurden nicht korrekt zurückgeliefert und aggregiert. Möglicherweise ist der MMLU-Datensatz nicht korrekt geladen worden oder es gibt einen stillen Abbruch vor der ersten Inference.

Empfehlung

Vor jeder weiteren Auswertung sollte die Datenpipeline geprüft werden: Datensatz-Download verifizieren, Adapter-Konfiguration für `lm_eval_harness` mit MMLU explizit testen und einen minimalen Einzellauf mit einem einzigen Sample durchführen, um den Datenfluss von Prompt bis Score-Aggregation zu validieren.

Übersicht

0 Samples

Verteilung

Score-Histogramm

0.0 ────── 1.0

	Frage-ID	Status	Score	Prompt	Latenz	Tokens/s	TTFT
Keine Samples Dieser Benchmark hat keine persistierten Samples (etwa weil der Adapter im Health-Check failed ist).