Samples · lm_eval_harness.mmlu
KI-Auswertung
Generiert 2026-05-12 02:17 · claude-sonnet-4-6Zusammenfassung
Der MMLU-Sub-Benchmark wurde vollständig ohne auswertbare Ergebnisse abgeschlossen: Es liegen null Durchläufe, null Fehler und kein Score vor. Das Modell wurde faktisch nicht getestet.
Stärken
- Keine technischen Laufzeitfehler (Errors = 0), die Pipeline selbst ist stabil
- Kein offensichtlicher Absturz oder kritischer Integrationsfehler
Schwächen
- Pass-Rate ist `null`, kein einziges Sample wurde verarbeitet
- Kein Score vorhanden, damit ist das Modell für diesen Benchmark vollständig unbewertet
- Successes, Failures und Errors sind alle leer — die Evaluation hat schlicht nie begonnen oder keine Daten geliefert
Auffälligkeiten
Das Auffälligste ist das vollständige Fehlen jeglicher Samples. Dies deutet nicht auf ein Modellproblem hin, sondern auf ein Konfigurations- oder Integrationsproblem: Der Adapter `lm_eval_harness` hat entweder keine Prompts an das Modell `mlx-community/Qwen3-Coder-Next` übergeben, oder die Ergebnisse wurden nicht korrekt zurückgeliefert und aggregiert. Möglicherweise ist der MMLU-Datensatz nicht korrekt geladen worden oder es gibt einen stillen Abbruch vor der ersten Inference.
Empfehlung
Vor jeder weiteren Auswertung sollte die Datenpipeline geprüft werden: Datensatz-Download verifizieren, Adapter-Konfiguration für `lm_eval_harness` mit MMLU explizit testen und einen minimalen Einzellauf mit einem einzigen Sample durchführen, um den Datenfluss von Prompt bis Score-Aggregation zu validieren.
Übersicht
0 Samples| Frage-ID | Status | Score | Prompt | Latenz | Tokens/s | TTFT | |
|---|---|---|---|---|---|---|---|
|
Keine Samples
Dieser Benchmark hat keine persistierten Samples (etwa weil der Adapter im Health-Check failed ist).
| |||||||