Run #70

mlx-community/Qwen3-Coder-Next 4bit · ExoCluster · gestartet 2026-05-12 22:36:16

ctx 262.1k

completed

Adapter mit Problemen: bfcl: BFCL-Output fehlt für single_turn

Aktueller Adapter swe_bench.swe_bench_lite

Samples 3370 / 3370 (100%)

Errors 9

Letzter Heartbeat 03:58:33

Beendet 2026-05-13 03:58:33

Cold-Start TTFT

Baseline — Streaming-Performance & Sanity · v1.0.0

Wie schnell antwortet das Modell auf den ersten Token-Stream nach Aufruf?

342ms

TTFT (p50) · 100% pass

1 ok · 0 failed

KI-Bewertung anzeigen

Zusammenfassung

Der Cold-Start-TTFT-Benchmark wurde mit einer Pass-Rate von 100 % (1/1) bestanden. Das Modell lieferte auf den minimalen Prompt „Antworte nur mit OK." korrekt und ohne Fehler die erwartete Antwort.

Stärken

Fehlerfreie Ausführung: weder Errors noch Failures aufgezeichnet
Korrekte und präzise Antwort ohne überflüssige Tokens oder Abweichungen vom erwarteten Format

Schwächen

Stichprobengröße von n=1 erlaubt keine statistisch belastbaren Aussagen über die tatsächliche TTFT-Stabilität
Keine konkreten Latenzmesswerte (ms) im Report vorhanden, was eine quantitative Bewertung unmöglich macht

Auffälligkeiten

Keine Muster erkennbar, da nur ein einzelner Testfall vorliegt. Der Prompt ist bewusst minimal gehalten, was keine Aussagen über das Verhalten bei komplexeren oder längeren Eingaben zulässt. Es ist unklar, ob „Cold-Start" tatsächlich einen Kaltstart ohne gecachte Modelldaten abbildet oder ob der Adapter dies nicht explizit kontrolliert.

Empfehlung

Den Benchmark auf mindestens 10–20 Wiederholungen ausweiten und dabei tatsächliche TTFT-Messwerte in Millisekunden erfassen, um Varianz und Ausreißer zu erkennen. Zusätzlich sollte geprüft werden, ob der Kaltstart-Zustand reproduzierbar erzwungen wird (z.B. durch Model-Unload vor jedem Lauf), damit der Sub-Benchmark seinen beschriebenen Zweck zuverlässig erfüllt.

Sanity — Substring-Checks

Baseline — Streaming-Performance & Sanity · v1.0.0

Liefert der Endpoint überhaupt korrekte Antworten auf einfachste Fragen?

100%

10 ok · 0 failed

KI-Bewertung anzeigen

Zusammenfassung

Der Sanity-Benchmark wurde mit einer Pass-Rate von 100 % (10/10) fehlerfrei bestanden. Das Modell liefert auf alle trivialen Fragen korrekte, präzise Antworten ohne Fehler oder Abweichungen.

Stärken

Vollständige Korrektheit bei allen Faktenfragen (Geografie, Mathematik, Allgemeinwissen)
Strikte Befolgung der Formatvorgaben: Antworten bestehen ausschließlich aus dem geforderten Wort oder der Zahl, kein überflüssiger Text
Null Fehler und null Ausfälle, der Endpoint ist stabil erreichbar und antwortet konsistent

Schwächen

Keine Schwächen im Rahmen dieses Tests erkennbar
Der Benchmark deckt ausschließlich triviale Fälle ab und erlaubt keine Rückschlüsse auf komplexere Aufgaben

Auffälligkeiten

Keine Muster in Failures oder Errors feststellbar, da sämtliche Stichproben erfolgreich waren. Die Antwortlänge ist in allen Fällen minimal und exakt passend zur Anforderung, was auf ein gutes Instruction-Following hindeutet.

Empfehlung

Der Sanity-Check ist bestanden und erfordert keine Anpassungen. Als nächsten Schritt sollten anspruchsvollere Sub-Benchmarks ausgeführt werden (z. B. Reasoning, Code-Generierung oder mehrsprachige Prompts), um belastbarere Aussagen über die tatsächliche Modellqualität unter realen Bedingungen zu gewinnen.

Throughput — Tokens/sec

Baseline — Streaming-Performance & Sanity · v1.0.0

Wie viele Tokens pro Sekunde liefert das Modell unter realistischer Last?

57.5t/s

Tokens/sec (p50) · 100% pass

6 ok · 0 failed

KI-Bewertung anzeigen

Zusammenfassung

Der Throughput-Benchmark wurde mit einer Pass-Rate von 100 % (6/6) ohne Fehler abgeschlossen. Der normalisierte Score von 0,491 deutet auf eine moderate Inferenzgeschwindigkeit hin, die noch Luft nach oben lässt.

Stärken

Vollständige Fehlerfreiheit: Kein einziger Error oder Failure über alle Prompt-Typen hinweg
Korrekte und qualitativ hochwertige Antworten über alle Schwierigkeitsstufen (kurz bis lang), was auf stabile Modellausgaben hindeutet

Schwächen

Score von ~0,49 bedeutet, dass das Modell nur etwa die Hälfte der Referenz-Tokens/sec erreicht — für produktive Last möglicherweise zu langsam
Bei komplexeren Prompts (Quicksort-Pseudocode) wirken die Antworten abgeschnitten, was auf Token-Limits oder Puffer-Engpässe beim Streaming hinweisen könnte

Auffälligkeiten

Die Quicksort-Antwort endet mitten im Algorithmus (`// 2. Bewege j ...`), ohne den Partitionierungsalgorithmus zu vervollständigen. Dies tritt ausgerechnet beim längsten Prompt auf und könnte ein systematisches Problem bei langen Outputs im Streaming-Modus sein — nicht nur ein inhaltliches, sondern potenziell ein technisches Truncation-Problem.

Empfehlung

Den langen Prompt (Quicksort) gezielt mit erhöhtem `max_tokens`-Limit wiederholen, um zu prüfen, ob das Truncating ein Konfigurationsproblem ist. Parallel sollte geprüft werden, ob ein Wechsel zu einer höher quantisierten MLX-Variante (z. B. 4-bit statt 8-bit) den Throughput-Score deutlich über 0,6 anhebt, ohne Qualitätsverluste einzuführen.

Single-Turn Function Calling

BFCL · Berkeley Function Calling Leaderboard · v1.0.0

Ruft das Modell die richtige Funktion mit den richtigen Argumenten auf?

—

0 ok · 0 failed

⚠ Adapter degraded: BFCL-Output fehlt für single_turn

KI-Bewertung anzeigen

Zusammenfassung

Der Sub-Benchmark „Single-Turn Function Calling" liefert keinerlei auswertbare Ergebnisse, da weder Erfolge noch Fehler noch Samples vorliegen. Die Pass-Rate ist undefiniert (null), was auf ein fundamentales Ausführungsproblem hinweist.

Stärken

Keine Laufzeitfehler (errors: 0), das Modell hat sich nicht abgestürzt oder ungültige Ausgaben erzeugt
Die Infrastruktur scheint stabil zu sein, da keine Exceptions geloggt wurden

Schwächen

Null ausgewertete Samples — der Benchmark hat de facto nicht stattgefunden
Kein Score, keine Pass-Rate: Es lässt sich absolut keine Aussage über die Modell-Qualität treffen
Das Modell `mlx-community/Qwen3-Coder-Next` ist vollständig unbewertet geblieben

Auffälligkeiten

Das auffälligste Muster ist das vollständige Fehlen jeglicher Samples (successes, failures, errors sind allesamt leere Listen). Dies deutet nicht auf ein Modellproblem hin, sondern auf ein Problem im Benchmark-Setup selbst: möglicherweise wurde der Datensatz nicht geladen, der Adapter nicht korrekt initialisiert oder die Verbindung zum Test-Backend unterbrochen. Es handelt sich um einen strukturellen Ausführungsfehler, nicht um ein Inferenz-Problem.

Empfehlung

Vor jeder inhaltlichen Modell-Bewertung muss die Benchmark-Pipeline debuggt werden: Datensatz-Pfad und BFCL-Adapter-Konfiguration für `single_turn` prüfen, sicherstellen dass die Testfälle korrekt geladen und an das Modell weitergegeben werden, und den Benchmark anschließend erneut ausführen.

GSM8K — Grundschulmathe

lm-evaluation-harness · v1.0.0+humaneval-unsafe-flag

Kann das Modell mehrstufig rechnen und Zwischenergebnisse halten?

87.6%

2310 ok · 328 failed

KI-Bewertung anzeigen

Zusammenfassung

Das Modell `mlx-community/Qwen3-Coder-Next` erreicht auf GSM8K eine Pass-Rate von 87,6 % (Score 0,855) und bewältigt den Großteil der mehrstufigen Grundschulmathe-Aufgaben korrekt. Rund 12,4 % der Aufgaben werden falsch gelöst, ohne dass Fehler (Errors) auftreten.

Stärken

Stabile Abarbeitung einfacher bis mittelkomplexer Kettenberechnungen (Stufenweise, klar strukturiert)
Korrekte Anwendung von Bruch- und Prozentrechnung in vielen Fällen
Null technische Fehler (Errors = 0), Modell antwortet immer

Schwächen

Fehler bei Rückwärts-Schließen (Vacuumcleaner-Aufgabe: Gleichungsansatz korrekt, aber Off-by-one bei Jahreszählung)
Inkonsistente Interpretation mehrdeutiger Formulierungen (z. B. „150% increase" bei der Hausaufgabe, „10% speed increase" vs. „10% time reduction")
Gelegentliches Abschneiden der Antwort innerhalb der Berechnung (unvollständige Response-Strings in mehreren Failures sichtbar)
Off-by-one-Fehler bei inklusiven Jahresspannen (Quiltblock-Aufgabe: 34−23=11 statt 12)

Auffälligkeiten

Failures konzentrieren sich auf zwei Muster: (1) Aufgaben, bei denen prozentuale Änderungen auf Zeit statt auf Strecke/Betrag bezogen werden müssen (Rennzeit vs. Geschwindigkeit), und (2) Aufgaben mit rückwärts gerichteter Logik (Ausgangszahl aus Endwert ableiten). Zudem gibt es Hinweise auf abgeschnittene Antworten, was auf Token-Limit-Probleme bei längeren Reasoning-Ketten hindeutet.

Empfehlung

Token-Limit (max_new_tokens) prüfen und ggf. erhöhen, um abgeschnittene Antworten zu vermeiden; zusätzlich gezielte Few-Shot-Beispiele für prozentuale Rate-vs.-Zeit-Konversionen und Rückwärts-Schließen-Aufgaben einführen.

humaneval

lm-evaluation-harness · v1.0.0+humaneval-unsafe-flag

0 ok · 164 failed

KI-Bewertung anzeigen

Zusammenfassung

Das Modell `mlx-community/Qwen3-Coder-Next` erzielt auf dem HumanEval-Benchmark eine Pass-Rate von 0 % — keine einzige der 164 Aufgaben wird korrekt gelöst. Es treten dabei keinerlei Laufzeitfehler auf, was auf ein systematisches Ausgabeformat-Problem hindeutet.

Stärken

Das Modell versteht die Aufgaben inhaltlich: Die Antworten enthalten korrekte Erklärungen, Lösungsansätze und Algorithmen.
Keine Errors (0 Crashes), das Modell generiert konsistent Ausgaben.

Schwächen

Jede Antwort endet mit einem unvollständigen Code-Block: Das Modell schreibt den Funktionskopf in den Prompt-Kontext und bricht dann genau dort ab, wo der eigentliche Funktionskörper beginnen müsste.
Die Stop-Sequenzen (`\ndef`, `\nclass`, etc.) schneiden den generierten Code offensichtlich ab, bevor die Implementierung ausgegeben wird.

Auffälligkeiten

Alle 164 Failures zeigen dasselbe Muster: Das Modell produziert einen einleitenden Erklärungstext auf Englisch, öffnet einen Markdown-Codeblock mit ` ```python `, gibt dann den Import und ggf. den Funktionskopf aus — und dort greift die Stop-Sequenz `\ndef` und beendet die Generierung vorzeitig. Der eigentliche Funktionskörper wird nie ausgegeben. Dies ist kein Kompetenzproblem, sondern ein reines Konfigurationsproblem.

Empfehlung

Die Stop-Sequenz `\ndef` muss aus dem Harness-Konfiguration entfernt oder durch eine spezifischere Sequenz (z. B. `\n\ndef ` mit zwei Zeilenumbrüchen) ersetzt werden, da das Modell intern mit einem Reasoning/Thinking-Block oder Markdown-Codeblöcken arbeitet, in denen `def` legitim vorkommt. Alternativ sollte ein Chat-Template-Wrapper eingesetzt werden, der den Code nach dem schließenden ` ``` ` extrahiert.

IFEval — Instruction Following

lm-evaluation-harness · v1.0.0+humaneval-unsafe-flag

Folgt das Modell strikten Anweisungen ohne Eigeninterpretation?

80.2%

434 ok · 107 failed

KI-Bewertung anzeigen

Zusammenfassung

Das Modell erreicht eine Pass-Rate von 80,2 % im IFEval-Benchmark, was auf solide, aber nicht fehlerfreie Befolgung strikter Formatanweisungen hindeutet. Bei rund einem Fünftel der Aufgaben scheitert es an präzisen Format- oder Inhaltsvorgaben.

Stärken

Komplexe Mehrfachanweisungen (z. B. Abschnittstitel mit `SECTION X`, doppelte eckige Klammern, Wiederholung des Prompts) werden zuverlässig umgesetzt.
Sprachliche Constraints wie Kommaverbot oder reine Kleinschreibung werden in vielen Fällen korrekt eingehalten.
Keine technischen Errors (0 von 541 Anfragen).

Schwächen

Exakte Zählvorgaben werden nicht eingehalten: Bei Bullet-Point-Aufgaben liefert das Modell 6 statt 3 Punkte; Pflichtwiederholungen enthalten unerlaubte Zusatzzeichen.
Strenges Zeichenausschlussverbot (z. B. kein „t" im gesamten Text, kein „c") wird konsequent verletzt — das Modell hält solche Low-Level-Constraints nicht durchgängig ein.
Formatvorgaben wie „genau zwei Antworten, getrennt durch `**`" werden ignoriert (nur eine Antwort ohne Trennzeichen).
Längenvorgaben (mind. 800 Wörter, in doppelte Anführungszeichen gewickelt) werden teils nur unvollständig oder abgeschnitten erfüllt.

Auffälligkeiten

Die Failures konzentrieren sich auf zwei Mustertypen: (1) Zeichenebene-Constraints (verbotene Buchstaben, exakte Sondersymbol-Wiederholungen) und (2) exakte Mengenvorgaben (Bullet-Anzahl, Antwort-Anzahl). Komplexere semantische Anweisungen gelingen besser als niedrigschwellige, mechanische Formatregeln.

Empfehlung

Gezielte Feinabstimmung oder Chain-of-Thought-Prompting speziell für Zähl- und Zeichenebene-Constraints einsetzen; alternativ einen systematischen Constraint-Verifier als Post-Processing-Schicht ergänzen und den IFEval-Subset mit Zeichenausschluss-Aufgaben gesondert evaluieren.

SWE-bench Lite — Issue-Repair

SWE-bench Lite · v1.0.0+patch-apply-detection

⚠ 9

Kann das Modell echte Bugs in echten Codebasen fixen?

54.6 t/s

0 ok · 1 failed · 9 errors

KI-Bewertung anzeigen

Zusammenfassung

Das Modell Qwen3-Coder-Next erzielt auf SWE-bench Lite eine Pass-Rate von 0 % – kein einziger Patch wurde erfolgreich angewendet und getestet. Von 10 Samples schlugen 9 mit Fehlern und 1 mit einem inhaltlich falschen Patch fehl.

Stärken

Das Modell produziert strukturell valides Diff-Format (erkennbar am einzigen Failure-Sample).
Die inhaltliche Logik des Django-Patches (callable-Check für `FilePathField.path`) ist konzeptionell nachvollziehbar.

Schwächen

8 von 9 Errors sind `patch_apply_failed`: Die generierten Patches passen nicht auf den tatsächlichen Quellcode.
1 Timeout deutet auf Stabilitätsprobleme bei der Inferenz-Endpunkt-Verbindung hin.
Die Pass-Rate ist 0 – kein Patch besteht die Tests, selbst wenn er formal angewandt werden könnte.

Auffälligkeiten

Das dominierende Muster ist eindeutig: `patch_apply_failed` tritt in 8 von 9 Fehlerfällen auf. Das deutet darauf hin, dass das Modell falsche Zeilennummern oder fiktive Commit-Hashes (z. B. `1234567..abcdefg`) in den Diff-Headern erzeugt. Die Kontextzeilen stimmen offenbar nicht mit dem tatsächlichen Repository-Stand überein – ein klassisches Halluzinationsproblem beim Code-Grounding ohne direkten Dateizugriff.

Empfehlung

Den Tool-Calling- bzw. Repository-Kontext prüfen: Das Modell erhält offenbar keinen tatsächlichen Dateiinhalt zur Patch-Generierung. Es sollte sichergestellt werden, dass der relevante Quellcode als Kontext übergeben wird. Alternativ einen Retrieval-Step (z. B. exakten File-Fetch per SWE-bench-Harness) vorschalten und danach den Sub-Benchmark erneut evaluieren.

›

Live-View

elapsed

KI-Bewertung

Generiert 2026-05-13 04:00 · claude-sonnet-4-6

Gesamteindruck

`mlx-community/Qwen3-Coder-Next` zeigt solide Grundfähigkeiten in Faktenwissen, Mathematik und Instruction-Following, scheitert aber vollständig an praxisrelevanten Code-Aufgaben (HumanEval, SWE-bench). Dabei sind mehrere Nullergebnisse auf Konfigurationsfehler im Benchmark-Harness zurückzuführen, was die Aussagekraft des Gesamtbildes einschränkt.

Stärken

Fehlerfreies Sanity- und Cold-Start-Verhalten, stabiler Endpoint ohne Crashes
GSM8K mit 87,6 % Pass-Rate auf solidem Niveau für mehrstufige Mathematikaufgaben
IFEval mit 80,2 % zeigt gutes semantisches Instruction-Following bei komplexen Mehrfachanweisungen
Konsistente Ausgaben ohne technische Fehler quer durch alle Benchmarks

Schwächen

HumanEval: 0 % durch Stop-Sequenz-Fehlkonfiguration -- tatsächliche Codegen-Qualität unklar, aber kein nutzbares Ergebnis
SWE-bench: 0 % wegen halluzinierter Zeilennummern und fehlendem Dateikontext -- praxistaugliches Issue-Repair nicht gegeben
Throughput-Score nur ~0,49 der Referenz, mit Truncation-Problemen bei langen Ausgaben
Zeichenebene-Constraints (verbotene Buchstaben, exakte Mengenangaben) werden systematisch verletzt

Empfehlung

Vor einer produktiven Nutzung als Coding-Assistent unbedingt die Harness-Konfiguration korrigieren (Stop-Sequenzen, Repository-Kontext, Token-Limits) und HumanEval sowie SWE-bench neu evaluieren.

Stärken & Schwächen

Auf Basis der Pass-Raten dieses Runs

Stärken

GSM8K — Grundschulmathe (87.6%)
IFEval — Instruction Following (80.2%)

Schwächen

humaneval (0%)
SWE-bench Lite — Issue-Repair (0%)

Telemetrie

GPU-Auslastung (%)

Knoten:

VRAM (MB)

Knoten:

Snapshots

› Konfiguration

7 Felder

{
    "name": "Qwen-3-Coder ALL",
    "provider_id": null,
    "model_id": null,
    "benchmarks": [
        {
            "adapter_key": "bfcl",
            "sub_benchmarks": [
                "single_turn"
            ],
            "threshold_override": null,
            "params": {
                "bfcl_preset": "quick"
            }
        },
        {
            "adapter_key": "lm_eval_harness",
            "sub_benchmarks": [
                "gsm8k",
                "humaneval",
                "ifeval"
            ],
            "threshold_override": null
        },
        {
            "adapter_key": "swe_bench",
            "sub_benchmarks": [
                "swe_bench_lite"
            ],
            "threshold_override": null,
            "params": {
                "swe_bench_preset": "lite_smoke"
            }
        }
    ],
    "tags": [],
    "notes": null,
    "model": {
        "base_name": "mlx-community/Qwen3-Coder-Next",
        "quantization": "4bit",
        "format": "other",
        "source_url": null,
        "build_notes": null,
        "checksum": null
    }
}

› Provider

7 Felder

{
    "name": "ExoCluster",
    "type": "exo",
    "endpoint_url": "http://100.64.0.2:52415",
    "api_key_env_var": null,
    "sampling_params": [],
    "provider_specific": [],
    "telemetry_sample_interval_ms": 1000
}

› Hardware

2 Felder

[
    {
        "name": "bender",
        "hostname": "192.168.3.147",
        "gpu_description": "Mac Mini M4 Pro 20C",
        "cpu": "M4 Pro",
        "ram": "64 GB",
        "storage": "2TB",
        "network": null,
        "notes": null
    },
    {
        "name": "zoidberg",
        "hostname": "192.168.3.79",
        "gpu_description": "Mac Mini M4 Pro 20C",
        "cpu": "M4 Pro",
        "ram": "64GB",
        "storage": "2TB",
        "network": null,
        "notes": null
    }
]

› System

6 Felder

{
    "php_version": "8.4.21",
    "os": "Linux",
    "os_release": "6.8.0-111-generic",
    "symfony_version": "7.4.10",
    "provider_version_hint": null,
    "recorded_at": "2026-05-12T22:36:16+02:00"
}

Log-Verzeichnis

/home/webuser/htdocs/llmbench.mandarin.dev/dev/app/var/logs/runs/70