Samples · lm_eval_harness.gsm8k

Run #63 · Adapter v1.0.0+humaneval-unsafe-flag · 0/0 Samples angezeigt
‹ Zurück zum Run-Detail

KI-Auswertung

Generiert 2026-05-12 02:17 · claude-sonnet-4-6

Zusammenfassung

Der Benchmark liefert keinerlei verwertbare Ergebnisse: Es wurden null Aufgaben ausgeführt, weder Erfolge noch Fehler wurden registriert, und eine Pass-Rate konnte nicht berechnet werden.

Stärken

  • Keine Abstürze oder Laufzeitfehler (errors = 0), das System ist stabil gestartet
  • Die Benchmark-Konfiguration selbst scheint korrekt definiert

Schwächen

  • Vollständig leere Ergebnismenge: kein einziger Sample wurde verarbeitet
  • Keine auswertbare Metrik vorhanden (pass_rate, score jeweils null)
  • Modellleistung auf GSM8K bleibt vollständig unbekannt

Auffälligkeiten

Das auffälligste Muster ist das vollständige Ausbleiben jeglicher Ausführung. Es wurden weder Successes noch Failures noch Errors gesammelt. Dies deutet nicht auf ein Modellproblem hin, sondern auf ein infrastrukturelles Problem: Der Inference-Adapter hat offenbar keine Prompts an das Modell weitergeleitet oder die Ergebnisse wurden nicht korrekt zurückgeschrieben. Das Modell `mlx-community/Qwen3-Coder-Next` selbst konnte unter diesen Umständen nicht bewertet werden.

Empfehlung

Vor jeder inhaltlichen Modellbewertung muss die Pipeline-Integration geprüft werden: Adapter-Konfiguration (`lm_eval_harness`) auf korrekte Dataset-Anbindung und Modell-Endpoint-Verbindung verifizieren, einen manuellen Einzellauf mit einem GSM8K-Sample durchführen und sicherstellen, dass Ergebnisse korrekt in die Ergebnisstruktur zurückgeschrieben werden. Erst danach ist eine Neubewertung sinnvoll.

Übersicht

0 Samples
Verteilung
Score-Histogramm
0 – 0.1: 0 0.1 – 0.2: 0 0.2 – 0.3: 0 0.3 – 0.4: 0 0.4 – 0.5: 0 0.5 – 0.6: 0 0.6 – 0.7: 0 0.7 – 0.8: 0 0.8 – 0.9: 0 0.9 – 1: 0
0.0 ────── 1.0
Status Score-Schwelle Score < 0.5
Frage-ID Status Score Prompt Latenz Tokens/s TTFT
Keine Samples
Dieser Benchmark hat keine persistierten Samples (etwa weil der Adapter im Health-Check failed ist).