Run #67

mlx-community/Qwen3-Coder-Next 4bit · ExoBender · gestartet 2026-05-12 16:56:45

ctx 262.1k

completed

Aktueller Adapter lm_eval_harness.ifeval

Samples 3360 / 3360 (100%)

Errors 0

Letzter Heartbeat 19:28:42

Beendet 2026-05-12 19:28:42

Cold-Start TTFT

Baseline — Streaming-Performance & Sanity · v1.0.0

Wie schnell antwortet das Modell auf den ersten Token-Stream nach Aufruf?

309ms

TTFT (p50) · 100% pass

1 ok · 0 failed

KI-Bewertung anzeigen

Zusammenfassung

Der Cold-Start-TTFT-Benchmark wurde mit einer Pass-Rate von 100 % bestanden. Das Modell lieferte beim ersten Stream-Token korrekt und fehlerfrei eine Antwort.

Stärken

Vollständige Fehlerfreiheit: keine Errors, keine Failures
Korrekte Instruktionsbefolgung beim minimalen Prompt ("Antworte nur mit OK" → "OK")

Schwächen

Stichprobengröße von n=1 erlaubt keine statistisch belastbare Aussage zur TTFT-Stabilität
Kein tatsächlicher Latenzwert (Millisekunden) in den Metriken dokumentiert, nur binäres Pass/Fail

Auffälligkeiten

Keine Muster in Failures erkennbar, da ausschließlich ein Success vorliegt. Der Test deckt lediglich den einfachsten möglichen Fall ab (einsilbige Antwort auf minimalen Prompt), was komplexere Cold-Start-Szenarien mit längeren Prompts oder Token-intensiven Antworten unberücksichtigt lässt.

Empfehlung

Den Benchmark um mindestens 5–10 Wiederholungen mit variierenden Prompt-Längen und -Komplexitäten erweitern sowie tatsächliche TTFT-Messwerte in Millisekunden erfassen, um Ausreißer und Jitter im Cold-Start-Verhalten des Modells `mlx-community/Qwen3-Coder-Next` zuverlässig beurteilen zu können.

Sanity — Substring-Checks

Baseline — Streaming-Performance & Sanity · v1.0.0

Liefert der Endpoint überhaupt korrekte Antworten auf einfachste Fragen?

100%

10 ok · 0 failed

KI-Bewertung anzeigen

Zusammenfassung

Der Sanity-Benchmark wurde mit einer Pass-Rate von 100 % (10/10) fehlerfrei bestanden. Das Modell liefert auf triviale Fragen präzise, formatgerechte Antworten ohne jegliche Abweichungen.

Stärken

Perfekte Befolgung von Formatvorgaben (nur Zahl, nur ein Wort, Großbuchstaben)
Keinerlei Halluzinationen oder inhaltliche Fehler bei einfachen Faktenfragen
Keine Latenz- oder Verbindungsfehler (0 Errors)

Schwächen

Keine Schwächen im Rahmen dieses Benchmarks erkennbar

Auffälligkeiten

Keine Muster in Failures feststellbar, da ausnahmslos alle Antworten korrekt waren. Die Antworten sind durchgehend minimal gehalten, was auf gute Instruction-Following-Fähigkeiten hindeutet. Es gibt keine Tendenz zu unerwünschten Zusatztexten oder Erklärungen.

Empfehlung

Der Sanity-Check ist unauffällig und bestätigt die grundlegende Funktionsfähigkeit des Endpoints. Da dieser Sub-Benchmark nur die absolute Mindestanforderung prüft, sollte als nächster Schritt ein anspruchsvollerer Benchmark (z. B. Reasoning, Code-Generierung oder mehrsprachige Prompts) ausgeführt werden, um die Leistungsgrenzen des Modells zu identifizieren.

Throughput — Tokens/sec

Baseline — Streaming-Performance & Sanity · v1.0.0

Wie viele Tokens pro Sekunde liefert das Modell unter realistischer Last?

59.6t/s

Tokens/sec (p50) · 100% pass

6 ok · 0 failed

KI-Bewertung anzeigen

Zusammenfassung

Der Throughput-Benchmark wurde mit einer Pass-Rate von 100 % (6/6) ohne Fehler abgeschlossen. Der erzielte Score von ca. 0,50 Tokens/sec-Normwert liegt im mittleren Bereich und gibt Anlass zur weiteren Betrachtung der absoluten Geschwindigkeit.

Stärken

Vollständige Fehlerfreiheit: keine Errors, keine Failures bei allen sechs Prompts
Korrekte und inhaltlich solide Antworten über alle Schwierigkeitsstufen hinweg (kurz, mittel, lang)
Konsistente Antwortqualität unabhängig vom Prompt-Typ (Faktenfrage, Erklärung, technischer Vergleich)

Schwächen

Score von 0,504 deutet auf moderate Inferenzgeschwindigkeit hin; das Modell schöpft den möglichen Durchsatz offenbar nicht voll aus
Der lange Prompt (Quicksort-Pseudocode) zeigt eine abgeschnittene Antwort, was auf ein Truncation-Problem beim Streaming hinweisen könnte

Auffälligkeiten

Die Quicksort-Antwort endet mitten im Satz („– hier verwende ich die …") ohne abschließende Partition-Implementierung. Dies ist das einzige erkennbare Muster: bei längerem Output scheint der Stream vorzeitig zu enden, was entweder auf ein Token-Limit oder einen Streaming-Buffer-Fehler hindeutet. Kurze Prompts liefern vollständige Antworten ohne Auffälligkeiten.

Empfehlung

Den maximalen Output-Token-Grenzwert für lange Prompts erhöhen und prüfen, ob das Streaming-Buffer-Handling bei Antworten über einer bestimmten Länge korrekt konfiguriert ist. Anschließend den Throughput-Sub-Benchmark mit dem langen Prompt erneut ausführen, um festzustellen, ob Truncation die gemessenen Tokens/sec-Werte systematisch verzerrt.

GSM8K — Grundschulmathe

lm-evaluation-harness · v1.0.0+humaneval-unsafe-flag

Kann das Modell mehrstufig rechnen und Zwischenergebnisse halten?

87.6%

2310 ok · 328 failed

KI-Bewertung anzeigen

Zusammenfassung

Das Modell `mlx-community/Qwen3-Coder-Next` erreicht auf GSM8K eine Pass-Rate von 87,6 % bei 2638 bewerteten Aufgaben und zeigt damit solide, aber nicht fehlerfreie Leistung bei mehrstufigen Grundschul-Rechenaufgaben.

Stärken

Korrekte Lösungen bei einfachen bis mittelkomplexen mehrstufigen Aufgaben (Prozentrechnung, Einheitenumrechnung, lineare Gleichungen)
Strukturierte Schritt-für-Schritt-Darstellung mit klaren Zwischenergebnissen
Keine Fehler (0 Errors), das Modell gibt stets eine Antwort

Schwächen

Fehler bei Aufgaben mit rückwärts gerichteter Logik (Reverse-Engineering von Startwerten, z. B. Staubsauger-Aufgabe)
Fehler bei Ambiguität in Prozentangaben: Das Modell interpretiert „Zeitverbesserung durch 10 % mehr Geschwindigkeit" als inverse Beziehung statt direkter Reduktion
Fehler bei off-by-one-Problemen in Jahresberechnungen (Gene-Quilt-Aufgabe: 12 statt 11 Jahre)
Teilweise abgeschnittene Antworten (Response endet mitten im Satz/Rechnung), was auf Token-Limit-Probleme hindeuten kann

Auffälligkeiten

Wiederkehrendes Muster: Das Modell rechnet korrekt, zieht aber falsche Schlüsse am Ende — insbesondere bei Aufgaben, die implizite Konventionen voraussetzen (z. B. „Wert steigt um X %" bezogen auf Kaufpreis vs. Reparaturkosten). Zudem treten Abbrüche in den Responses auf, was auf ein zu niedrig gesetztes `max_tokens`-Limit hindeutet.

Empfehlung

`max_new_tokens` erhöhen, um abgeschnittene Antworten zu vermeiden, und anschließend den Sub-Benchmark für Aufgaben mit Prozentrechnung und Rückwärtslogik gezielt re-evaluieren, um zu prüfen, ob die Fehlerrate dort überproportional hoch ist.

humaneval

lm-evaluation-harness · v1.0.0+humaneval-unsafe-flag

0 ok · 164 failed

KI-Bewertung anzeigen

Zusammenfassung

Das Modell erreicht eine Pass-Rate von 0 % auf dem HumanEval-Benchmark (0 von 164 Aufgaben bestanden). Kein einziger Testfall wurde erfolgreich abgeschlossen.

Stärken

Das Modell produziert keine Laufzeitfehler (0 Errors), die Ausgaben sind syntaktisch verarbeitbar.
Die generierten Erklärungen zeigen korrektes konzeptionelles Verständnis der Aufgaben (z. B. Sortier-Optimierung, Balancenzählung).

Schwächen

Das Modell gibt ausnahmslos unvollständigen Code zurück: Es beginnt einen Markdown-Codeblock mit ` ```python ` und bricht dann ab, bevor die eigentliche Implementierung folgt.
Kein einziger funktionsfähiger Funktionskörper wird generiert, weshalb alle Doctests fehlschlagen.

Auffälligkeiten

Es gibt ein einheitliches, deterministisches Fehlermuster: Jede Antwort besteht aus erklärendem Prosatext gefolgt von einem eingeleiteten, aber leeren oder abgebrochenen Python-Codeblock. Das Stop-Sequenz-Kriterium (`\ndef`, `\nclass` etc.) greift vermutlich zu früh und schneidet die eigentliche Funktionsdefinition ab. Da `do_sample=false` gesetzt ist, tritt dieser Fehler reproduzierbar bei allen 164 Aufgaben auf. Das Problem liegt nicht in der Modellqualität, sondern in der Konfiguration der Stop-Sequenzen.

Empfehlung

Die Stop-Sequenzen im Harness-Adapter anpassen: `\ndef` sollte nicht als Stoppbedingung gelten, da Lösungen häufig mit einer `def`-Zeile beginnen oder Helper-Funktionen enthalten. Alternativ das Prompt-Format auf Completion-Stil (ohne Chat-Wrapper) umstellen, sodass das Modell direkt in den Funktionskörper generiert, ohne einen Markdown-Codeblock einzuleiten.

IFEval — Instruction Following

lm-evaluation-harness · v1.0.0+humaneval-unsafe-flag

Folgt das Modell strikten Anweisungen ohne Eigeninterpretation?

80.4%

435 ok · 106 failed

KI-Bewertung anzeigen

Zusammenfassung

Das Modell Qwen3-Coder-Next erreicht auf dem IFEval-Benchmark eine Pass-Rate von ca. 80,4 % (435 von 541 Fällen), was ein solides, aber nicht überragendes Ergebnis bei strikter Instruktionsbefolgung darstellt. Keine Fehler (Errors) traten auf, alle Misserfolge sind inhaltliche Verstöße gegen Formatvorgaben.

Stärken

Formatanweisungen mit Abschnittstiteln, doppelten Anführungszeichen als Wrapper oder doppelten spitzen Klammern werden zuverlässig eingehalten.
Verbotene Wörter (z. B. „can", „ride") und Mindestanzahlen bestimmter Begriffe werden in vielen Fällen korrekt umgesetzt.
Mehrsprachige Anweisungen (Vietnamesisch) werden beachtet, sofern keine zusätzlichen Zeichenbeschränkungen kollidieren.

Schwächen

Strenge Zeichenbeschränkungen (z. B. „Buchstabe t höchstens einmal", „kein Buchstabe c") werden systematisch verletzt.
Exakte Bullet-Anzahl wird nicht eingehalten: Das Modell produziert mehr Punkte als verlangt (6 statt 3 Bullet Points).
Trennzeichen-Anforderungen (sechs Sternchen, exakt zwei Antworten) werden teilweise ignoriert oder falsch implementiert.
Längenvorgaben (mind. 800 Wörter, Antwort in doppelten Anführungszeichen) werden manchmal nicht vollständig erfüllt, da der Output vorzeitig abgeschnitten wirkt.

Auffälligkeiten

Ein klares Muster zeigt sich bei Anweisungen, die harte Zeichenebene-Constraints kombinieren (z. B. Buchstabenhäufigkeit + Großschreibung + Wortzahl). Das Modell priorisiert Lesbarkeit und Inhalt über strikte Zeichenzählung. Auch das exakte Wiederholen einer Anfrage vor der Antwort gelingt nicht fehlerfrei.

Empfehlung

Gezieltes Fine-Tuning oder Prompt-Engineering auf Zeichenebene-Constraints (Buchstabenhäufigkeit, exakte Listenlänge, Trennzeichen) durchführen; alternativ den IFEval-Sub-Benchmark mit strengerem Constraint-Tracking erneut evaluieren und die Sampling-Temperatur auf 0 belassen, da Greedy Decoding hier bereits aktiv ist.

›

Live-View

elapsed

KI-Bewertung

Generiert 2026-05-12 19:41 · claude-sonnet-4-6

Gesamteindruck

Das Modell zeigt starke Grundfähigkeiten in Instruktionsbefolgung, Mathematik und einfachen Formataufgaben, versagt aber vollständig bei Python-Codegenerierung -- allerdings aufgrund eines Konfigurationsfehlers in den Stop-Sequenzen, nicht wegen mangelnder Modellqualität. Die Gesamtleistung ist solide für ein lokales MLX-Modell, weist jedoch spezifische, behebbare technische Probleme auf.

Stärken

Perfekte Sanity- und Cold-Start-Ergebnisse (100 % Pass-Rate), zuverlässiger Betrieb ohne Errors
Solide GSM8K-Leistung (87,6 %), strukturierte Schritt-für-Schritt-Rechenwege
IFEval mit 80,4 % akzeptabel, besonders bei Abschnitts- und Sprachformatvorgaben
Konsistente Antwortqualität über verschiedene Prompt-Schwierigkeiten hinweg

Schwächen

HumanEval 0 % durch fehlerhafte Stop-Sequenz-Konfiguration -- Code wird nie vollständig generiert
Truncation-Problem bei langen Antworten deutet auf zu niedrig gesetztes `max_tokens`-Limit
Versagt systematisch bei Zeichenebene-Constraints (Buchstabenhäufigkeit, exakte Listenlängen)
Fehler bei Rückwärtslogik und off-by-one-Problemen in Matheaufgaben

Empfehlung

Vor produktivem Einsatz unbedingt die Stop-Sequenzen im HumanEval-Harness korrigieren und `max_new_tokens` erhöhen, um Truncation zu beseitigen -- erst dann ist eine belastbare Gesamtbewertung möglich.

Stärken & Schwächen

Auf Basis der Pass-Raten dieses Runs

Stärken

GSM8K — Grundschulmathe (87.6%)
IFEval — Instruction Following (80.4%)

Schwächen

humaneval (0%)

Telemetrie

GPU-Auslastung (%)

VRAM (MB)

Snapshots

› Konfiguration

7 Felder

{
    "name": "LM-Eval ALL",
    "provider_id": null,
    "model_id": null,
    "benchmarks": [
        {
            "adapter_key": "lm_eval_harness",
            "sub_benchmarks": [
                "gsm8k",
                "humaneval",
                "ifeval"
            ],
            "threshold_override": null
        }
    ],
    "tags": [],
    "notes": null,
    "model": {
        "base_name": "mlx-community/Qwen3-Coder-Next",
        "quantization": "4bit",
        "format": "other",
        "source_url": null,
        "build_notes": null,
        "checksum": null
    }
}

› Provider

7 Felder

{
    "name": "ExoBender",
    "type": "exo",
    "endpoint_url": "http://100.64.0.2:52415",
    "api_key_env_var": null,
    "sampling_params": [],
    "provider_specific": [],
    "telemetry_sample_interval_ms": 1000
}

› Hardware

1 Felder

[
    {
        "name": "kim",
        "hostname": "100.64.0.4",
        "gpu_description": "RTX 5080 16GB",
        "cpu": "Ryzen 9800 X3D",
        "ram": "64GB DDR5",
        "storage": "1TB+4TB SSD",
        "network": null,
        "notes": null
    }
]

› System

6 Felder

{
    "php_version": "8.4.21",
    "os": "Linux",
    "os_release": "6.8.0-111-generic",
    "symfony_version": "7.4.10",
    "provider_version_hint": null,
    "recorded_at": "2026-05-12T16:56:45+02:00"
}

Log-Verzeichnis

/home/webuser/htdocs/llmbench.mandarin.dev/dev/app/var/logs/runs/67