Run #57

mlx-community/Qwen3-Coder-Next 4bit · ExoBender · gestartet 2026-05-11 18:34:03

completed

Aktueller Adapter swe_bench.swe_bench_lite

Samples 27 / 27 (100%)

Errors 10

Letzter Heartbeat 19:00:04

Beendet 2026-05-11 19:00:04

Cold-Start TTFT

Baseline — Streaming-Performance & Sanity · v1.0.0

Wie schnell antwortet das Modell auf den ersten Token-Stream nach Aufruf?

464ms

TTFT (p50) · 100% pass

1 ok · 0 failed

KI-Bewertung anzeigen

Zusammenfassung

Der Cold-Start-TTFT-Benchmark wurde mit einer Pass-Rate von 100 % bestanden. Das Modell antwortete auf die erste Stream-Anfrage korrekt und ohne Fehler.

Stärken

Perfekte Pass-Rate (1/1) ohne Fehler oder Fehlschläge
Exakte, instruktionstreue Antwort ("OK") ohne überflüssige Tokens oder Abweichungen vom Format

Schwächen

Stichprobengröße von n=1 erlaubt keine statistisch belastbare Aussage über die tatsächliche TTFT-Stabilität
Kein konkreter Latenzwert (ms) im Report enthalten, sodass die eigentliche Kernmetrik nicht bewertet werden kann

Auffälligkeiten

Keine Failures oder Errors vorhanden. Der Prompt war bewusst minimal gehalten ("Antworte nur mit OK"), was zwar ideal für TTFT-Messung ist, aber keine Rückschlüsse auf das Verhalten bei komplexeren Anfragen erlaubt. Das Fehlen numerischer Latenzdaten im Output ist auffällig für einen Benchmark, dessen erklärtes Ziel die Messung der Time-To-First-Token ist.

Empfehlung

Den Benchmark um mindestens 5–10 Wiederholungen mit demselben minimalen Prompt erweitern und die tatsächlichen TTFT-Werte in Millisekunden im Report erfassen, um Ausreißer und Varianz des Cold-Start-Verhaltens des Modells `mlx-community/Qwen3-Coder-Next` zuverlässig beurteilen zu können.

Sanity — Substring-Checks

Baseline — Streaming-Performance & Sanity · v1.0.0

Liefert der Endpoint überhaupt korrekte Antworten auf einfachste Fragen?

100%

10 ok · 0 failed

KI-Bewertung anzeigen

Zusammenfassung

Der Sanity-Benchmark wurde mit einer Pass-Rate von 100 % (10/10) fehlerlos bestanden. Das Modell liefert auf alle trivialen Fragen korrekte und formatgerechte Antworten.

Stärken

Vollständige Korrektheit bei arithmetischen, geographischen und faktischen Fragen
Strikte Einhaltung der Formatvorgaben (Einzelwort, Zahl, Großbuchstaben) ohne zusätzliche Ausschweifungen

Schwächen

Keine Schwächen identifizierbar — der Benchmark ist jedoch trivial und aussagekräftig nur als Basisprüfung

Auffälligkeiten

Keine Fehler oder Muster erkennbar. Alle Antworten sind präzise und minimal, was auf gutes Instruction-Following bei einfachen, eng formulierten Prompts hindeutet. Die Stichproben zeigen keinerlei Tendenz zu Verbose-Antworten oder Formatverletzungen.

Empfehlung

Den Sanity-Benchmark als bestanden betrachten und die Ressourcen auf anspruchsvollere Sub-Benchmarks konzentrieren (z. B. Reasoning, längere Kontexte oder mehrsprachige Prompts), da dieser Test keine Schwachstellen aufdeckt und keine weiteren Maßnahmen erfordert.

Throughput — Tokens/sec

Baseline — Streaming-Performance & Sanity · v1.0.0

Wie viele Tokens pro Sekunde liefert das Modell unter realistischer Last?

53.9t/s

Tokens/sec (p50) · 100% pass

6 ok · 0 failed

KI-Bewertung anzeigen

Zusammenfassung

Der Throughput-Benchmark wurde fehlerfrei mit einer Pass-Rate von 1,0 abgeschlossen. Der erzielte Score von 0,46 entspricht etwa 46 % des Referenzwerts, was auf einen moderaten Durchsatz hinweist.

Stärken

Keine Fehler oder Ausfälle bei allen sechs Prompts unterschiedlicher Länge und Komplexität
Korrekte und inhaltlich vollständige Antworten auf alle Prompt-Typen (kurz, mittel, lang)

Schwächen

Score von 0,46 deutet darauf hin, dass das Modell nur knapp die Hälfte des Referenz-Durchsatzes erreicht
Bei langen Prompts (Quicksort-Pseudocode) wurde die Antwort offenbar abgeschnitten — der Pseudocode für die `partition`-Funktion endet mitten im Code

Auffälligkeiten

Der einzige strukturelle Ausreißer ist die abgeschnittene Quicksort-Antwort: Die `partition`-Prozedur bricht nach der Initialisierung von `i` ab. Dies könnte auf ein Token-Limit oder einen Streaming-Abbruch bei langen Antworten hinweisen, nicht auf inhaltliche Schwäche des Modells. Alle anderen Antworten sind vollständig. Zudem enthält das Modell in mehreren kurzen Antworten Emojis, was je nach Einsatzszenario unerwünscht sein kann.

Empfehlung

Den maximalen Output-Token-Limit für den langen Prompt-Typ erhöhen und prüfen, ob die abgeschnittene Ausgabe den Throughput-Score negativ beeinflusst. Zusätzlich empfiehlt sich ein direkter Vergleich mit einem kleineren oder stärker quantisierten Modell, um die Ursache des niedrigen Scores (Modellgröße vs. Quantisierung) zu isolieren.

SWE-bench Lite — Issue-Repair

SWE-bench Lite · v1.0.0+patch-apply-detection

⚠ 10

Kann das Modell echte Bugs in echten Codebasen fixen?

—

51.1 t/s

0 ok · 0 failed · 10 errors

KI-Bewertung anzeigen

Zusammenfassung

Der Benchmark liefert kein verwertbares Ergebnis: Alle 10 Stichproben endeten mit einem Fehler, es gibt weder Erfolge noch Failures im klassischen Sinne. Eine Pass-Rate kann nicht berechnet werden.

Stärken

Keine inhaltlichen Fehler (falsche Logik, Halluzinationen) wurden beobachtet, da kein Patch überhaupt angewendet wurde.
Das Fehlerverhalten ist konsistent und klar diagnostizierbar.

Schwächen

100 % der Samples scheitern mit `patch_apply_failed`, d.h. das Modell produziert Patches, die technisch nicht auf den Ziel-Codestand angewendet werden können.
Pass-Rate und Score sind vollständig undefiniert — der Benchmark ist faktisch wertlos für einen Modellvergleich.

Auffälligkeiten

Alle 10 Fehler tragen exakt denselben Fehlercode (`patch_apply_failed`) ohne weitere Differenzierung. Dies deutet nicht auf ein inhaltliches Modellproblem hin, sondern auf ein systematisches Problem in der Patch-Generierung oder -Formatierung: falsche Kontextzeilen, falsche Dateipfade im Diff-Header oder ein Mismatch zwischen dem Ziel-Commit und dem vom Modell angenommenen Codestand.

Empfehlung

Vor einer erneuten Ausführung sollte die Patch-Extraktion und -Formatierung im Adapter geprüft werden: Stimmt das Diff-Format (`unified diff`, korrekte `a/`-`b/`-Pfade, ausreichend Kontext)? Stimmt der Basis-Commit mit dem im Benchmark erwarteten überein? Ein manueller Dry-Run mit `git apply --check` auf einem Sample-Patch würde die Ursache schnell isolieren. Erst danach lohnt sich eine vollständige Benchmark-Ausführung.

›

Live-View

elapsed

KI-Bewertung

Generiert 2026-05-11 19:03 · claude-sonnet-4-6

Gesamteindruck

Das Modell `mlx-community/Qwen3-Coder-Next` zeigt solide Grundfähigkeiten bei einfachen Aufgaben, erreicht jedoch nur etwa die Hälfte des Referenz-Durchsatzes und scheitert beim zentralen Code-Repair-Benchmark vollständig an technischen Formatierungsproblemen. Eine belastbare Aussage zur eigentlichen Coding-Kompetenz ist derzeit nicht möglich.

Stärken

Perfektes Instruction-Following bei einfachen, eng definierten Prompts (Sanity, Cold-Start)
Konsistente Formatdisziplin ohne unerwünschte Verbose-Ausgaben
Keine inhaltlichen Fehler oder Halluzinationen in den auswertbaren Benchmarks

Schwächen

Throughput bei nur ~46 % des Referenzwerts, mit abgeschnittenen Antworten bei langen Outputs
SWE-bench vollständig wertlos durch 100 % `patch_apply_failed` — Kernkompetenz als Coding-Modell unbewertet
Gelegentliche Emojis in Antworten, die in professionellen Einsatzszenarien stören können

Empfehlung

Vor jeder weiteren Evaluation den Patch-Adapter debuggen (`git apply --check` auf einem Sample-Patch), um das SWE-bench-Ergebnis überhaupt verwertbar zu machen — erst danach ist eine sinnvolle Aussage zur Eignung als Coding-Assistent möglich.

Stärken & Schwächen

Auf Basis der Pass-Raten dieses Runs

Stärken

Keine Sub-Benchmarks im "good"-Bereich.

Schwächen

Keine Sub-Benchmarks im "poor"-Bereich.

Telemetrie

GPU-Auslastung (%)

VRAM (MB)

Snapshots

› Konfiguration

7 Felder

{
    "name": "SWE-Bench-Quick",
    "provider_id": null,
    "model_id": null,
    "benchmarks": [
        {
            "adapter_key": "baseline",
            "sub_benchmarks": [
                "cold_start",
                "throughput",
                "sanity"
            ],
            "threshold_override": null
        },
        {
            "adapter_key": "swe_bench",
            "sub_benchmarks": [
                "swe_bench_lite"
            ],
            "threshold_override": null,
            "params": {
                "swe_bench_preset": "lite_smoke"
            }
        }
    ],
    "tags": [],
    "notes": null,
    "model": {
        "base_name": "mlx-community/Qwen3-Coder-Next",
        "quantization": "4bit",
        "format": "other",
        "source_url": null,
        "build_notes": null,
        "checksum": null
    }
}

› Provider

7 Felder

{
    "name": "ExoBender",
    "type": "exo",
    "endpoint_url": "http://100.64.0.2:52415",
    "api_key_env_var": null,
    "sampling_params": [],
    "provider_specific": [],
    "telemetry_sample_interval_ms": 1000
}

› Hardware

1 Felder

[
    {
        "name": "kim",
        "hostname": "100.64.0.4",
        "gpu_description": "RTX 5080 16GB",
        "cpu": "Ryzen 9800 X3D",
        "ram": "64GB DDR5",
        "storage": "1TB+4TB SSD",
        "network": null,
        "notes": null
    }
]

› System

6 Felder

{
    "php_version": "8.4.21",
    "os": "Linux",
    "os_release": "6.8.0-111-generic",
    "symfony_version": "7.4.10",
    "provider_version_hint": null,
    "recorded_at": "2026-05-11T18:34:03+02:00"
}

Log-Verzeichnis

/home/webuser/htdocs/llmbench.mandarin.dev/dev/app/var/logs/runs/57