Run #63

mlx-community/Qwen3-Coder-Next 4bit · ExoBender · gestartet 2026-05-11 23:05:55
ctx 262.1k
completed
Adapter mit Problemen: lm_eval_harness: lm_eval exit=1 — NotImplementedError: Loglikelihood is not supported for chat completions. Consider using the completions API instead.
Aktueller Adapter lm_eval_harness.ifeval
Samples 17 / 17 (100%)
Errors 0
Letzter Heartbeat 02:01:46
Beendet 2026-05-12 02:01:46
Cold-Start TTFT
Baseline — Streaming-Performance & Sanity · v1.0.0

Wie schnell antwortet das Modell auf den ersten Token-Stream nach Aufruf?

463ms
TTFT (p50) · 100% pass
1 ok · 0 failed
KI-Bewertung anzeigen

Zusammenfassung

Der Cold-Start-TTFT-Benchmark wurde mit einer Pass-Rate von 100 % bestanden. Das Modell antwortete korrekt und ohne Fehler auf den einzigen Testfall.

Stärken

  • Vollständige Fehlerfreiheit: keine Errors, keine Failures
  • Korrekte und präzise Antwort auf die Instruktion ("OK" ohne Zusätze)

Schwächen

  • Stichprobengröße von nur einem Prompt erlaubt keine belastbare statistische Aussage
  • Der Test misst lediglich Korrektheit, nicht die tatsächliche TTFT-Latenz in Millisekunden

Auffälligkeiten

Keine Muster erkennbar, da nur ein einziger Testfall vorliegt. Die Beschreibung des Benchmarks zielt auf Latenz (Time-To-First-Token), jedoch enthält die Auswertung keine konkreten Zeitwerte — nur ein binäres Pass/Fail-Ergebnis.

Empfehlung

Den Benchmark um quantitative Latenz-Metriken (TTFT in ms, Perzentile p50/p95) sowie eine größere Anzahl von Prompts unterschiedlicher Länge und Komplexität erweitern, um belastbare Aussagen über das tatsächliche Cold-Start-Verhalten des Modells treffen zu können.

Sanity — Substring-Checks
Baseline — Streaming-Performance & Sanity · v1.0.0

Liefert der Endpoint überhaupt korrekte Antworten auf einfachste Fragen?

100%
10 ok · 0 failed
KI-Bewertung anzeigen

Zusammenfassung

Der Sanity-Benchmark wurde mit einer Pass-Rate von 100 % (10/10) fehlerfrei bestanden. Das Modell liefert auf triviale Fragen präzise, formatgerechte Antworten ohne jegliche Abweichungen.

Stärken

  • Perfekte Instruction-Following-Fähigkeit: Alle Formatvorgaben (einzelnes Wort, nur Zahl) wurden exakt eingehalten
  • Null Fehler und Null Ausfälle — der Endpoint ist stabil und grundsätzlich funktionsfähig

Schwächen

  • Keine Schwächen auf diesem Niveau erkennbar; der Test ist jedoch zu trivial für differenzierte Aussagen
  • Kein Belastungstest für längere Kontexte, Ambiguität oder Mehrsprachigkeit

Auffälligkeiten

Keine negativen Muster erkennbar. Alle Antworten sind minimal und präzise — das Modell tendiert nicht zu unerwünschten Zusätzen oder Erklärungen, was positiv zu werten ist.

Empfehlung

Den Sanity-Benchmark als bestanden abhaken und die Evaluierung auf anspruchsvollere Sub-Benchmarks konzentrieren, insbesondere auf Reasoning, Code-Generierung und Long-Context-Aufgaben, da der aktuelle Test keine Aussagekraft über die tatsächliche Leistungsfähigkeit des Modells bei komplexen Aufgaben bietet.

Throughput — Tokens/sec
Baseline — Streaming-Performance & Sanity · v1.0.0

Wie viele Tokens pro Sekunde liefert das Modell unter realistischer Last?

52.9t/s
Tokens/sec (p50) · 100% pass
6 ok · 0 failed
KI-Bewertung anzeigen

Zusammenfassung

Der Throughput-Benchmark wurde mit einer Pass-Rate von 100 % (6/6) fehlerfrei abgeschlossen. Der erzielte Score von ~0,43 spiegelt die gemessene Token-Geschwindigkeit wider, die als moderater Wert einzustufen ist.

Stärken

  • Keine Fehler oder Failures in keiner der sechs Testinstanzen
  • Korrekte und qualitativ angemessene Antworten über alle Prompt-Längen hinweg (kurz, mittel, lang)
  • Robustheit über verschiedene Domänen: Mathematik, Geografie, Biologie, Informatik

Schwächen

  • Score von 0,432 deutet auf eine unterdurchschnittliche Token-Geschwindigkeit hin; ob dieser Wert ausreichend ist, hängt vom Ziel-SLA ab
  • Responses bei mittleren und langen Prompts (Quicksort, REST/GraphQL) wurden teilweise abgeschnitten, was auf Token-Limits oder Streaming-Abbrüche hinweist

Auffälligkeiten

Bei zwei längeren Antworten (Quicksort-Pseudocode, REST-vs-GraphQL) endet der Text mitten im Satz bzw. im Code-Block. Dies ist kein inhaltlicher Fehler im Sinne des Benchmarks, aber ein strukturelles Muster: Bei langen Outputs scheint die Antwort vorzeitig zu terminieren. Das könnte auf ein zu niedrig gesetztes `max_tokens`-Limit im Benchmark-Setup zurückzuführen sein.

Empfehlung

Das vorzeitige Abschneiden langer Antworten sollte untersucht werden: `max_tokens` im Benchmark-Adapter prüfen und ggf. erhöhen. Zudem sollte der Score von 0,432 gegen einen definierten Throughput-Schwellenwert (z. B. Tokens/sec-Zielwert) verglichen werden, um zu beurteilen, ob ein Wechsel auf eine leichtere Quantisierungsstufe (z. B. 4-Bit statt 8-Bit) sinnvoll ist.

GSM8K — Grundschulmathe
lm-evaluation-harness · v1.0.0+humaneval-unsafe-flag

Kann das Modell mehrstufig rechnen und Zwischenergebnisse halten?

0 ok · 0 failed
KI-Bewertung anzeigen

Zusammenfassung

Der Benchmark liefert keinerlei verwertbare Ergebnisse: Es wurden null Aufgaben ausgeführt, weder Erfolge noch Fehler wurden registriert, und eine Pass-Rate konnte nicht berechnet werden.

Stärken

  • Keine Abstürze oder Laufzeitfehler (errors = 0), das System ist stabil gestartet
  • Die Benchmark-Konfiguration selbst scheint korrekt definiert

Schwächen

  • Vollständig leere Ergebnismenge: kein einziger Sample wurde verarbeitet
  • Keine auswertbare Metrik vorhanden (pass_rate, score jeweils null)
  • Modellleistung auf GSM8K bleibt vollständig unbekannt

Auffälligkeiten

Das auffälligste Muster ist das vollständige Ausbleiben jeglicher Ausführung. Es wurden weder Successes noch Failures noch Errors gesammelt. Dies deutet nicht auf ein Modellproblem hin, sondern auf ein infrastrukturelles Problem: Der Inference-Adapter hat offenbar keine Prompts an das Modell weitergeleitet oder die Ergebnisse wurden nicht korrekt zurückgeschrieben. Das Modell `mlx-community/Qwen3-Coder-Next` selbst konnte unter diesen Umständen nicht bewertet werden.

Empfehlung

Vor jeder inhaltlichen Modellbewertung muss die Pipeline-Integration geprüft werden: Adapter-Konfiguration (`lm_eval_harness`) auf korrekte Dataset-Anbindung und Modell-Endpoint-Verbindung verifizieren, einen manuellen Einzellauf mit einem GSM8K-Sample durchführen und sicherstellen, dass Ergebnisse korrekt in die Ergebnisstruktur zurückgeschrieben werden. Erst danach ist eine Neubewertung sinnvoll.

humaneval
lm-evaluation-harness · v1.0.0+humaneval-unsafe-flag
0 ok · 0 failed
KI-Bewertung anzeigen

Zusammenfassung

Der Benchmark liefert keinerlei verwertbare Ergebnisse: Alle Metriken sind null oder nicht definiert, und es wurden keine Samples verarbeitet. Das Modell wurde faktisch nicht evaluiert.

Stärken

  • Keine Fehler bei der Ausführung des Adapters (errors: 0)
  • Keine fehlgeschlagenen Samples im technischen Sinne

Schwächen

  • Pass-Rate ist `null` — kein einziges Sample wurde bewertet
  • Score ist undefiniert, sodass kein Vergleich mit anderen Modellen möglich ist
  • Weder Successes noch Failures vorhanden, was auf ein grundlegendes Integrationsproblem hindeutet

Auffälligkeiten

Die Kombination aus `passed: 0`, `failed: 0` und `errors: 0` bei gleichzeitig leeren Sample-Listen deutet nicht auf schlechte Modellleistung hin, sondern auf ein Konfigurationsproblem im Evaluierungspipeline. Möglicherweise wurde der Adapter nie gestartet, das Modell nicht korrekt geladen, oder die Ausgabe wurde nicht an den Harness zurückgegeben. Das Modell `mlx-community/Qwen3-Coder-Next` könnte unter MLX nicht korrekt initialisiert worden sein.

Empfehlung

Vor einer inhaltlichen Bewertung muss die technische Ursache behoben werden: Adapter-Logs prüfen, ob das Modell erfolgreich geladen wurde, und sicherstellen, dass der `lm_eval_harness`-Adapter die Generierungsanfragen korrekt weiterleitet. Ein minimaler Smoke-Test mit 5 Samples empfiehlt sich, bevor der vollständige 164-Aufgaben-Lauf wiederholt wird.

IFEval — Instruction Following
lm-evaluation-harness · v1.0.0+humaneval-unsafe-flag

Folgt das Modell strikten Anweisungen ohne Eigeninterpretation?

0 ok · 0 failed
KI-Bewertung anzeigen

Zusammenfassung

Der Sub-Benchmark IFEval liefert keinerlei verwertbare Ergebnisse, da weder Samples ausgeführt noch Metriken berechnet wurden. Die Pass-Rate ist `null`, alle Zähler stehen auf 0.

Stärken

  • Keine Fehler (Errors = 0), d.h. der Adapter ist technisch nicht abgestürzt
  • Die Benchmark-Konfiguration selbst scheint korrekt definiert zu sein

Schwächen

  • Kein einziges Sample wurde verarbeitet — Successes, Failures und Errors sind alle leer
  • Es existiert kein Score und keine Pass-Rate, womit die Aussagekraft vollständig fehlt
  • Das Modell `mlx-community/Qwen3-Coder-Next` wurde für diesen Sub-Benchmark de facto nicht getestet

Auffälligkeiten

Das auffälligste Muster ist das vollständige Fehlen jeglicher Samples. Dies deutet nicht auf ein Modell-Verhalten hin, sondern auf ein infrastrukturelles oder konfiguratives Problem: Möglicherweise wurde der Dataset-Split nicht geladen, der Adapter hat die Aufgaben nicht an das Modell weitergeleitet, oder die Benchmark-Pipeline wurde vorzeitig abgebrochen. Da Errors = 0, wurde kein Laufzeitfehler protokolliert, was auf ein stilles Scheitern (silent failure) hinweist.

Empfehlung

Vor jeder weiteren Auswertung sollte geprüft werden, ob der IFEval-Datensatz korrekt heruntergeladen und vom `lm_eval_harness`-Adapter als Task registriert wurde. Konkret: Den Task-Namen `ifeval` im Harness-Log verifizieren, den Dataset-Cache prüfen und einen Testlauf mit `--limit 5` durchführen, um sicherzustellen, dass überhaupt Samples übergeben werden. Erst danach ist eine inhaltliche Bewertung des Instruction-Following-Verhaltens möglich.

mmlu
lm-evaluation-harness · v1.0.0+humaneval-unsafe-flag
0 ok · 0 failed
KI-Bewertung anzeigen

Zusammenfassung

Der MMLU-Sub-Benchmark wurde vollständig ohne auswertbare Ergebnisse abgeschlossen: Es liegen null Durchläufe, null Fehler und kein Score vor. Das Modell wurde faktisch nicht getestet.

Stärken

  • Keine technischen Laufzeitfehler (Errors = 0), die Pipeline selbst ist stabil
  • Kein offensichtlicher Absturz oder kritischer Integrationsfehler

Schwächen

  • Pass-Rate ist `null`, kein einziges Sample wurde verarbeitet
  • Kein Score vorhanden, damit ist das Modell für diesen Benchmark vollständig unbewertet
  • Successes, Failures und Errors sind alle leer — die Evaluation hat schlicht nie begonnen oder keine Daten geliefert

Auffälligkeiten

Das Auffälligste ist das vollständige Fehlen jeglicher Samples. Dies deutet nicht auf ein Modellproblem hin, sondern auf ein Konfigurations- oder Integrationsproblem: Der Adapter `lm_eval_harness` hat entweder keine Prompts an das Modell `mlx-community/Qwen3-Coder-Next` übergeben, oder die Ergebnisse wurden nicht korrekt zurückgeliefert und aggregiert. Möglicherweise ist der MMLU-Datensatz nicht korrekt geladen worden oder es gibt einen stillen Abbruch vor der ersten Inference.

Empfehlung

Vor jeder weiteren Auswertung sollte die Datenpipeline geprüft werden: Datensatz-Download verifizieren, Adapter-Konfiguration für `lm_eval_harness` mit MMLU explizit testen und einen minimalen Einzellauf mit einem einzigen Sample durchführen, um den Datenfluss von Prompt bis Score-Aggregation zu validieren.

Live-View

elapsed
Event-Stream

KI-Bewertung

Generiert 2026-05-12 02:18 · claude-sonnet-4-6

Gesamteindruck

Das Modell `mlx-community/Qwen3-Coder-Next` besteht alle technisch funktionierenden Benchmarks (Cold-Start, Throughput, Sanity) mit 100 % Pass-Rate, jedoch konnten vier der sieben Sub-Benchmarks (MMLU, GSM8K, HumanEval, IFEval) aufgrund von Integrationsproblemen in der Evaluierungspipeline überhaupt nicht ausgeführt werden. Eine belastbare Aussage zur tatsächlichen Modellqualität ist damit nicht möglich.

Stärken

  • Stabiler Endpoint ohne Laufzeitfehler in allen gestarteten Benchmarks
  • Exaktes Instruction-Following bei einfachen Formatsanforderungen (Sanity 10/10)
  • Robuste Verarbeitung verschiedener Domänen und Prompt-Längen im Throughput-Test

Schwächen

  • Vier kritische Benchmarks (MMLU, GSM8K, HumanEval, IFEval) liefern null auswertbare Ergebnisse -- stilles Scheitern der Pipeline
  • Moderater Throughput-Score (0,43) mit vorzeitigem Abschneiden langer Antworten
  • Keine Messung tatsächlicher Latenzwerte (TTFT in ms) trotz entsprechendem Benchmark-Label

Empfehlung

Vor jeder inhaltlichen Modellbewertung muss die `lm_eval_harness`-Integration mit einem `--limit 5`-Smoke-Test je fehlgeschlagenem Sub-Benchmark debuggt und die Dataset-Anbindung verifiziert werden.

Stärken & Schwächen

Auf Basis der Pass-Raten dieses Runs

Stärken

Keine Sub-Benchmarks im "good"-Bereich.

Schwächen

Keine Sub-Benchmarks im "poor"-Bereich.

Telemetrie

GPU-Auslastung (%)
VRAM (MB)

Snapshots

Konfiguration
7 Felder
{
    "name": "LM-Eval ALL",
    "provider_id": null,
    "model_id": null,
    "benchmarks": [
        {
            "adapter_key": "lm_eval_harness",
            "sub_benchmarks": [
                "mmlu",
                "gsm8k",
                "humaneval",
                "ifeval"
            ],
            "threshold_override": null
        }
    ],
    "tags": [],
    "notes": null,
    "model": {
        "base_name": "mlx-community/Qwen3-Coder-Next",
        "quantization": "4bit",
        "format": "other",
        "source_url": null,
        "build_notes": null,
        "checksum": null
    }
}
Provider
7 Felder
{
    "name": "ExoBender",
    "type": "exo",
    "endpoint_url": "http://100.64.0.2:52415",
    "api_key_env_var": null,
    "sampling_params": [],
    "provider_specific": [],
    "telemetry_sample_interval_ms": 1000
}
Hardware
1 Felder
[
    {
        "name": "kim",
        "hostname": "100.64.0.4",
        "gpu_description": "RTX 5080 16GB",
        "cpu": "Ryzen 9800 X3D",
        "ram": "64GB DDR5",
        "storage": "1TB+4TB SSD",
        "network": null,
        "notes": null
    }
]
System
6 Felder
{
    "php_version": "8.4.21",
    "os": "Linux",
    "os_release": "6.8.0-111-generic",
    "symfony_version": "7.4.10",
    "provider_version_hint": null,
    "recorded_at": "2026-05-11T23:05:55+02:00"
}

Log-Verzeichnis

/home/webuser/htdocs/llmbench.mandarin.dev/dev/app/var/logs/runs/63