Run #64

mlx-community/Qwen3-Coder-Next 4bit · ExoBender · gestartet 2026-05-12 02:01:51

ctx 262.1k

completed

Aktueller Adapter swe_bench.swe_bench_lite

Samples 27 / 27 (100%)

Errors 8

Letzter Heartbeat 02:16:55

Beendet 2026-05-12 02:16:55

Cold-Start TTFT

Baseline — Streaming-Performance & Sanity · v1.0.0

Wie schnell antwortet das Modell auf den ersten Token-Stream nach Aufruf?

472ms

TTFT (p50) · 100% pass

1 ok · 0 failed

KI-Bewertung anzeigen

Zusammenfassung

Der Cold-Start-TTFT-Benchmark wurde mit einer Pass-Rate von 100 % bestanden. Das Modell lieferte beim einzigen Testfall sofort die korrekte Antwort ohne Fehler.

Stärken

Vollständige Fehlerfreiheit: keine Errors, keine Failures
Korrekte und minimale Antwort auf einen einfachen Prompt

Schwächen

Stichprobengröße von n=1 erlaubt keine statistisch belastbare Aussage
Kein tatsächlicher TTFT-Messwert (in Millisekunden) in den Metriken erfasst

Auffälligkeiten

Keine Muster erkennbar, da nur ein einziger Testfall vorliegt. Der Benchmark misst laut Beschreibung die Latenz bis zum ersten Stream-Token, jedoch enthält die Ausgabe keinen numerischen Zeitwert — es wurde lediglich die Korrektheit der Antwort bewertet. Dies widerspricht dem eigentlichen Ziel des Sub-Benchmarks.

Empfehlung

Den Benchmark erweitern: Erstens sollte die tatsächliche TTFT-Dauer in Millisekunden als Metrik erfasst und ausgegeben werden, da ohne diesen Wert keine Aussage über die Latenz möglich ist. Zweitens sollte die Stichprobengröße auf mindestens 10–20 Anfragen erhöht werden, um Schwankungen im Cold-Start-Verhalten (z. B. durch Modell-Loading oder Cache-Effekte) sichtbar zu machen.

Sanity — Substring-Checks

Baseline — Streaming-Performance & Sanity · v1.0.0

Liefert der Endpoint überhaupt korrekte Antworten auf einfachste Fragen?

100%

10 ok · 0 failed

KI-Bewertung anzeigen

Zusammenfassung

Das Modell besteht den Sanity-Benchmark mit einer perfekten Pass-Rate von 100 % (10/10). Alle trivialen Fragen wurden korrekt und im geforderten Format beantwortet.

Stärken

Vollständige Instruction-Following-Kompetenz: Jede Formatvorgabe ("nur die Zahl", "ein einziges Wort") wurde exakt eingehalten.
Keinerlei Fehler oder Abstürze, der Endpoint ist stabil und betriebsbereit.

Schwächen

Keine Schwächen im Rahmen dieses Benchmarks identifizierbar.
Der Benchmark ist trivial gehalten und lässt keine Rückschlüsse auf komplexere Fähigkeiten zu.

Auffälligkeiten

Keine negativen Muster erkennbar. Sämtliche Antworten sind minimal und präzise, ohne unerwünschte Zusatztexte. Auffällig positiv ist, dass das Modell auch bei Großschreibungsaufgaben keine Erklärungen oder Kommentare hinzufügt.

Empfehlung

Den Sanity-Benchmark als bestanden abhaken und die Testtiefe erhöhen: Als nächsten Schritt sollten anspruchsvollere Sub-Benchmarks evaluiert werden, etwa Reasoning, längere Kontextverarbeitung oder Codegenerierung, um belastbare Aussagen über die tatsächliche Modellqualität zu gewinnen.

Throughput — Tokens/sec

Baseline — Streaming-Performance & Sanity · v1.0.0

Wie viele Tokens pro Sekunde liefert das Modell unter realistischer Last?

52.4t/s

Tokens/sec (p50) · 100% pass

6 ok · 0 failed

KI-Bewertung anzeigen

Zusammenfassung

Der Throughput-Benchmark wurde mit einer Pass-Rate von 100 % (6/6) ohne Fehler abgeschlossen. Der erzielte Score von 0,436 deutet jedoch auf eine moderate Token-Generierungsgeschwindigkeit hin, die je nach Referenzwert als mittelmäßig einzustufen ist.

Stärken

Vollständige Fehlerfreiheit: Null Errors, Null Failures über alle sechs Prompts
Korrekte und inhaltlich konsistente Antworten über alle Schwierigkeitsstufen (kurz, mittel, lang)

Schwächen

Score von 0,436 signalisiert, dass die Tokens/sec-Rate unter einem höheren Referenzwert liegt — das Modell ist nicht besonders schnell
Bei längeren Antworten (z. B. Quicksort-Pseudocode) wurde die Ausgabe mid-Response abgeschnitten, was auf ein Token-Limit oder Buffer-Problem hinweisen könnte

Auffälligkeiten

Die Quicksort-Antwort endet mitten im Code-Block (`FUNCTION` ohne Body), was auf ein Hard-Cutoff beim Streaming hinweist. Alle anderen Antworten sind vollständig. Dieses Muster tritt ausschließlich beim längsten und komplexesten Prompt auf — ein Hinweis auf ein Output-Token-Limit-Problem bei langen Generierungen unter Streaming-Last.

Empfehlung

Den maximalen Output-Token-Grenzwert für das Modell erhöhen oder prüfen, ob der Streaming-Buffer bei langen Antworten vorzeitig geschlossen wird. Zusätzlich sollte der Score-Referenzwert (Tokens/sec-Ziel) dokumentiert werden, um einzuschätzen, ob ein Quantisierungswechsel (z. B. von 4-bit auf 8-bit oder umgekehrt) die Durchsatzrate verbessern kann.

SWE-bench Lite — Issue-Repair

SWE-bench Lite · v1.0.0+patch-apply-detection

⚠ 8

Kann das Modell echte Bugs in echten Codebasen fixen?

38.7 t/s

0 ok · 2 failed · 8 errors

KI-Bewertung anzeigen

Zusammenfassung

Das Modell erzielt eine Pass-Rate von 0 % auf SWE-bench Lite: Kein einziger Patch führt zu grünen Tests. Die Fehlerquote dominiert das Ergebnis mit 8 Errors bei nur 10 ausgewerteten Samples.

Stärken

Das Modell produziert syntaktisch erkennbare Diff-Formate und versucht, relevante Codestellen zu adressieren.
Die inhaltliche Stoßrichtung der Patches (z.B. callable-Pfad-Handling in Django, leere Array-Behandlung in astropy) ist thematisch plausibel.

Schwächen

6 von 8 Errors sind `patch_apply_failed`: Die erzeugten Patches enthalten falsche Zeilennummern oder fiktive Hashes (z.B. `index 1234567..abcdefg`), die nicht auf den tatsächlichen Repo-Stand passen.
2 Errors sind Idle-Timeouts, was auf Inferenz-Instabilität oder Ressourcenprobleme hinweist.
Keine einzige Aufgabe wird korrekt gelöst, auch nicht die beiden Failures, deren Patches zwar angewendet werden konnten, aber die Tests nicht bestehen.

Auffälligkeiten

Alle `patch_apply_failed`-Fehler deuten auf ein systematisches Problem: Das Modell halluziniert Commit-Hashes und Zeilennummern, anstatt echte Kontext-Zeilen aus dem Repository zu verwenden. Dies ist ein konsistentes Muster über verschiedene Repos (astropy, Django) hinweg.

Empfehlung

Den Prompt-Aufbau überarbeiten: Das Modell muss den tatsächlichen Dateiinhalt als Kontext erhalten, damit es valide unified Diffs mit korrekten Zeilennummern erzeugt. Alternativ sollte ein Tool-Calling-Ansatz (z.B. direkte Dateibearbeitung statt Diff-Generierung) evaluiert werden, um die `patch_apply_failed`-Rate zu senken.

›

Live-View

elapsed

KI-Bewertung

Generiert 2026-05-12 02:19 · claude-sonnet-4-6

Gesamteindruck

Das Modell zeigt in grundlegenden Betriebstests (Latenz, Durchsatz, Instruction-Following) solide bis sehr gute Ergebnisse, versagt jedoch vollständig beim komplexen Software-Engineering-Task SWE-bench Lite. Die Diskrepanz zwischen trivialen und anspruchsvollen Aufgaben ist erheblich.

Stärken

Stabiler Endpoint: 100 % Pass-Rate in Cold-Start, Throughput und Sanity ohne einen einzigen Fehler
Präzises Instruction-Following: Formatvorgaben werden konsistent und ohne Zusatztexte eingehalten
Thematisch plausible Code-Patches werden generiert, syntaktische Diff-Struktur ist erkennbar

Schwächen

SWE-bench Lite: 0 % Pass-Rate, systematisches Halluzinieren von Commit-Hashes und Zeilennummern macht Patches unanwendbar
Moderate Token-Generierungsgeschwindigkeit (Score 0,436) mit Hard-Cutoff bei langen Antworten
Idle-Timeouts deuten auf Inferenz-Instabilität unter Last hin

Empfehlung

Für autonome Issue-Reparatur ist das Modell derzeit nicht geeignet -- vor einem produktiven Einsatz als Coding-Agent muss der Prompt-Aufbau so überarbeitet werden, dass das Modell echten Dateiinhalt als Kontext erhält, anstatt Diffs aus dem Gedächtnis zu halluzinieren.

Stärken & Schwächen

Auf Basis der Pass-Raten dieses Runs

Stärken

Keine Sub-Benchmarks im "good"-Bereich.

Schwächen

SWE-bench Lite — Issue-Repair (0%)

Telemetrie

GPU-Auslastung (%)

VRAM (MB)

Snapshots

› Konfiguration

7 Felder

{
    "name": "SWE-Bench-Quick",
    "provider_id": null,
    "model_id": null,
    "benchmarks": [
        {
            "adapter_key": "baseline",
            "sub_benchmarks": [
                "cold_start",
                "throughput",
                "sanity"
            ],
            "threshold_override": null
        },
        {
            "adapter_key": "swe_bench",
            "sub_benchmarks": [
                "swe_bench_lite"
            ],
            "threshold_override": null,
            "params": {
                "swe_bench_preset": "lite_smoke"
            }
        }
    ],
    "tags": [],
    "notes": null,
    "model": {
        "base_name": "mlx-community/Qwen3-Coder-Next",
        "quantization": "4bit",
        "format": "other",
        "source_url": null,
        "build_notes": null,
        "checksum": null
    }
}

› Provider

7 Felder

{
    "name": "ExoBender",
    "type": "exo",
    "endpoint_url": "http://100.64.0.2:52415",
    "api_key_env_var": null,
    "sampling_params": [],
    "provider_specific": [],
    "telemetry_sample_interval_ms": 1000
}

› Hardware

1 Felder

[
    {
        "name": "kim",
        "hostname": "100.64.0.4",
        "gpu_description": "RTX 5080 16GB",
        "cpu": "Ryzen 9800 X3D",
        "ram": "64GB DDR5",
        "storage": "1TB+4TB SSD",
        "network": null,
        "notes": null
    }
]

› System

6 Felder

{
    "php_version": "8.4.21",
    "os": "Linux",
    "os_release": "6.8.0-111-generic",
    "symfony_version": "7.4.10",
    "provider_version_hint": null,
    "recorded_at": "2026-05-12T02:01:51+02:00"
}

Log-Verzeichnis

/home/webuser/htdocs/llmbench.mandarin.dev/dev/app/var/logs/runs/64