Samples · lm_eval_harness.humaneval

Run #63 · Adapter v1.0.0+humaneval-unsafe-flag · 0/0 Samples angezeigt
‹ Zurück zum Run-Detail

KI-Auswertung

Generiert 2026-05-12 02:17 · claude-sonnet-4-6

Zusammenfassung

Der Benchmark liefert keinerlei verwertbare Ergebnisse: Alle Metriken sind null oder nicht definiert, und es wurden keine Samples verarbeitet. Das Modell wurde faktisch nicht evaluiert.

Stärken

  • Keine Fehler bei der Ausführung des Adapters (errors: 0)
  • Keine fehlgeschlagenen Samples im technischen Sinne

Schwächen

  • Pass-Rate ist `null` — kein einziges Sample wurde bewertet
  • Score ist undefiniert, sodass kein Vergleich mit anderen Modellen möglich ist
  • Weder Successes noch Failures vorhanden, was auf ein grundlegendes Integrationsproblem hindeutet

Auffälligkeiten

Die Kombination aus `passed: 0`, `failed: 0` und `errors: 0` bei gleichzeitig leeren Sample-Listen deutet nicht auf schlechte Modellleistung hin, sondern auf ein Konfigurationsproblem im Evaluierungspipeline. Möglicherweise wurde der Adapter nie gestartet, das Modell nicht korrekt geladen, oder die Ausgabe wurde nicht an den Harness zurückgegeben. Das Modell `mlx-community/Qwen3-Coder-Next` könnte unter MLX nicht korrekt initialisiert worden sein.

Empfehlung

Vor einer inhaltlichen Bewertung muss die technische Ursache behoben werden: Adapter-Logs prüfen, ob das Modell erfolgreich geladen wurde, und sicherstellen, dass der `lm_eval_harness`-Adapter die Generierungsanfragen korrekt weiterleitet. Ein minimaler Smoke-Test mit 5 Samples empfiehlt sich, bevor der vollständige 164-Aufgaben-Lauf wiederholt wird.

Übersicht

0 Samples
Verteilung
Score-Histogramm
0 – 0.1: 0 0.1 – 0.2: 0 0.2 – 0.3: 0 0.3 – 0.4: 0 0.4 – 0.5: 0 0.5 – 0.6: 0 0.6 – 0.7: 0 0.7 – 0.8: 0 0.8 – 0.9: 0 0.9 – 1: 0
0.0 ────── 1.0
Status Score-Schwelle Score < 0.5
Frage-ID Status Score Prompt Latenz Tokens/s TTFT
Keine Samples
Dieser Benchmark hat keine persistierten Samples (etwa weil der Adapter im Health-Check failed ist).