Samples · lm_eval_harness.humaneval

Run #63 · Adapter v1.0.0+humaneval-unsafe-flag · 0/0 Samples angezeigt

KI-Auswertung

Generiert 2026-05-12 02:17 · claude-sonnet-4-6

Zusammenfassung

Der Benchmark liefert keinerlei verwertbare Ergebnisse: Alle Metriken sind null oder nicht definiert, und es wurden keine Samples verarbeitet. Das Modell wurde faktisch nicht evaluiert.

Stärken

Keine Fehler bei der Ausführung des Adapters (errors: 0)
Keine fehlgeschlagenen Samples im technischen Sinne

Schwächen

Pass-Rate ist `null` — kein einziges Sample wurde bewertet
Score ist undefiniert, sodass kein Vergleich mit anderen Modellen möglich ist
Weder Successes noch Failures vorhanden, was auf ein grundlegendes Integrationsproblem hindeutet

Auffälligkeiten

Die Kombination aus `passed: 0`, `failed: 0` und `errors: 0` bei gleichzeitig leeren Sample-Listen deutet nicht auf schlechte Modellleistung hin, sondern auf ein Konfigurationsproblem im Evaluierungspipeline. Möglicherweise wurde der Adapter nie gestartet, das Modell nicht korrekt geladen, oder die Ausgabe wurde nicht an den Harness zurückgegeben. Das Modell `mlx-community/Qwen3-Coder-Next` könnte unter MLX nicht korrekt initialisiert worden sein.

Empfehlung

Vor einer inhaltlichen Bewertung muss die technische Ursache behoben werden: Adapter-Logs prüfen, ob das Modell erfolgreich geladen wurde, und sicherstellen, dass der `lm_eval_harness`-Adapter die Generierungsanfragen korrekt weiterleitet. Ein minimaler Smoke-Test mit 5 Samples empfiehlt sich, bevor der vollständige 164-Aufgaben-Lauf wiederholt wird.

Übersicht

0 Samples

Verteilung

Score-Histogramm

0.0 ────── 1.0

	Frage-ID	Status	Score	Prompt	Latenz	Tokens/s	TTFT
Keine Samples Dieser Benchmark hat keine persistierten Samples (etwa weil der Adapter im Health-Check failed ist).