Samples · lm_eval_harness.humaneval
KI-Auswertung
Generiert 2026-05-12 02:17 · claude-sonnet-4-6Zusammenfassung
Der Benchmark liefert keinerlei verwertbare Ergebnisse: Alle Metriken sind null oder nicht definiert, und es wurden keine Samples verarbeitet. Das Modell wurde faktisch nicht evaluiert.
Stärken
- Keine Fehler bei der Ausführung des Adapters (errors: 0)
- Keine fehlgeschlagenen Samples im technischen Sinne
Schwächen
- Pass-Rate ist `null` — kein einziges Sample wurde bewertet
- Score ist undefiniert, sodass kein Vergleich mit anderen Modellen möglich ist
- Weder Successes noch Failures vorhanden, was auf ein grundlegendes Integrationsproblem hindeutet
Auffälligkeiten
Die Kombination aus `passed: 0`, `failed: 0` und `errors: 0` bei gleichzeitig leeren Sample-Listen deutet nicht auf schlechte Modellleistung hin, sondern auf ein Konfigurationsproblem im Evaluierungspipeline. Möglicherweise wurde der Adapter nie gestartet, das Modell nicht korrekt geladen, oder die Ausgabe wurde nicht an den Harness zurückgegeben. Das Modell `mlx-community/Qwen3-Coder-Next` könnte unter MLX nicht korrekt initialisiert worden sein.
Empfehlung
Vor einer inhaltlichen Bewertung muss die technische Ursache behoben werden: Adapter-Logs prüfen, ob das Modell erfolgreich geladen wurde, und sicherstellen, dass der `lm_eval_harness`-Adapter die Generierungsanfragen korrekt weiterleitet. Ein minimaler Smoke-Test mit 5 Samples empfiehlt sich, bevor der vollständige 164-Aufgaben-Lauf wiederholt wird.
Übersicht
0 Samples| Frage-ID | Status | Score | Prompt | Latenz | Tokens/s | TTFT | |
|---|---|---|---|---|---|---|---|
|
Keine Samples
Dieser Benchmark hat keine persistierten Samples (etwa weil der Adapter im Health-Check failed ist).
| |||||||