Run #68

mlx-community/Qwen3-Coder-Next 4bit · ExoBender · gestartet 2026-05-12 19:28:47
ctx 262.1k
completed
Adapter mit Problemen: bfcl: bfcl_model_not_registered: {model_name} — in bfcl_eval/constants/model_config.py (MODEL_CONFIG_MAPPING) eintragen
Aktueller Adapter swe_bench.swe_bench_lite
Samples 27 / 27 (100%)
Errors 9
Letzter Heartbeat 19:40:30
Beendet 2026-05-12 19:40:30
Cold-Start TTFT
Baseline — Streaming-Performance & Sanity · v1.0.0

Wie schnell antwortet das Modell auf den ersten Token-Stream nach Aufruf?

386ms
TTFT (p50) · 100% pass
1 ok · 0 failed
KI-Bewertung anzeigen

Zusammenfassung

Der Cold-Start-TTFT-Benchmark wurde mit einer Pass-Rate von 100 % bestanden. Bei einem einzigen Testfall antwortete das Modell korrekt und ohne Fehler.

Stärken

  • Perfekte Pass-Rate (1/1) ohne Fehler oder Failures
  • Modell liefert exakt die geforderte Ausgabe ohne Zusatztext oder Formatierungsabweichungen

Schwächen

  • Stichprobengröße von n=1 erlaubt keine statistisch belastbaren Aussagen
  • Nur ein triviales Prompt getestet; komplexere Cold-Start-Szenarien bleiben unbewertet

Auffälligkeiten

Keine Muster erkennbar, da lediglich ein einziger Erfolgsfall vorliegt. Der Test prüft ausschließlich, ob überhaupt ein erster Token generiert wird, nicht die tatsächliche Latenz in Millisekunden — ein numerischer TTFT-Wert fehlt in den Metriken vollständig.

Empfehlung

Den Benchmark um mindestens 10–20 Durchläufe mit variierenden Prompt-Längen erweitern und die tatsächliche TTFT-Latenz in Millisekunden als Metrik erfassen, um aussagekräftige Aussagen über das Cold-Start-Verhalten von `mlx-community/Qwen3-Coder-Next` treffen zu können.

Sanity — Substring-Checks
Baseline — Streaming-Performance & Sanity · v1.0.0

Liefert der Endpoint überhaupt korrekte Antworten auf einfachste Fragen?

100%
10 ok · 0 failed
KI-Bewertung anzeigen

Zusammenfassung

Der Sanity-Benchmark wurde mit einer Pass-Rate von 100 % (10/10) fehlerfrei bestanden. Das Modell liefert auf triviale Fragen korrekte, präzise und formatgetreue Antworten.

Stärken

  • Vollständige Korrektheit bei allen zehn Testfragen ohne Ausnahme
  • Strikte Einhaltung der Formatvorgaben (nur Zahl, nur ein Wort, Großbuchstaben) ohne unerwünschte Zusatztexte
  • Keine Timeouts oder Fehler auf Infrastrukturebene

Schwächen

  • Keine Schwächen im Rahmen dieses Benchmarks feststellbar
  • Der Smoke-Test deckt ausschließlich triviale Fälle ab; Rückschlüsse auf komplexere Aufgaben sind nicht möglich

Auffälligkeiten

Keine Muster in Failures erkennbar, da keinerlei Fehler aufgetreten sind. Die Antworten sind durchgehend minimal und exakt, was auf ein gut konfiguriertes Ausgabe-Trimming oder ein Modell mit starker Instruktionsfolge hindeutet.

Empfehlung

Den Sanity-Benchmark als bestanden abhaken und die Testtiefe erhöhen: als nächsten Schritt einen anspruchsvolleren Sub-Benchmark mit mehrstufigem Reasoning, längeren Kontexten oder mehrsprachigen Prompts ausführen, um belastbarere Aussagen über die tatsächliche Modellqualität zu erhalten.

Throughput — Tokens/sec
Baseline — Streaming-Performance & Sanity · v1.0.0

Wie viele Tokens pro Sekunde liefert das Modell unter realistischer Last?

57.1t/s
Tokens/sec (p50) · 100% pass
6 ok · 0 failed
KI-Bewertung anzeigen

Zusammenfassung

Der Throughput-Benchmark wurde mit einer Pass-Rate von 100 % (6/6) ohne Fehler abgeschlossen. Der Score von 0,485 deutet auf eine moderate Inferenzgeschwindigkeit hin, die unter dem angestrebten Referenzwert liegt.

Stärken

  • Vollständige Fehlerfreiheit: keine Errors, keine Failures über alle sechs Prompts
  • Korrekte und inhaltlich solide Antworten bei allen Prompt-Typen (kurz, mittel, lang)
  • Stabile Ausgaben auch beim komplexesten Prompt (Quicksort-Pseudocode mit Erklärungen)

Schwächen

  • Score von ~0,485 signalisiert, dass die Tokens/sec nur knapp unter der Hälfte des Benchmark-Maximums liegen
  • Beim langen Quicksort-Prompt wurde die Antwort offenbar abgeschnitten (Pseudocode endet mitten im Satz), was auf ein Token-Limit oder Streaming-Problem hindeutet

Auffälligkeiten

Die abgeschnittene Quicksort-Antwort ist auffällig: Der Pseudocode bricht im Kommentar-Abschnitt der Partition-Funktion ab. Dies könnte auf eine zu niedrig gesetzte `max_tokens`-Grenze oder einen Streaming-Abbruch bei langen Outputs hinweisen. Alle anderen Antworten sind vollständig. Kein Muster bei bestimmten Sprachen oder Prompt-Stilen erkennbar.

Empfehlung

Den `max_tokens`-Parameter für den langen Prompt-Slot erhöhen und prüfen, ob der Streaming-Buffer bei längeren Ausgaben korrekt flusht. Zudem sollte die Rohzahl der Tokens/sec protokolliert werden, um den Score von 0,485 besser einordnen und gegebenenfalls Quantisierungsstufe oder Batch-Größe anpassen zu können.

Single-Turn Function Calling
BFCL · Berkeley Function Calling Leaderboard · v1.0.0

Ruft das Modell die richtige Funktion mit den richtigen Argumenten auf?

0 ok · 0 failed
KI-Bewertung anzeigen

Zusammenfassung

Der Sub-Benchmark „Single-Turn Function Calling" liefert keinerlei auswertbare Ergebnisse, da weder Erfolge noch Fehler noch Testfälle verzeichnet wurden. Die Pass-Rate ist undefiniert (null), was auf ein strukturelles Problem bei der Ausführung hindeutet.

Stärken

  • Keine Laufzeitfehler (errors: 0), d.h. das Modell hat keine Abstürze oder unbehandelte Ausnahmen verursacht
  • Keine expliziten Failures registriert

Schwächen

  • Vollständig fehlende Testergebnisse: 0 Samples insgesamt
  • Pass-Rate und Score sind nicht berechenbar
  • Keine Grundlage für eine inhaltliche Bewertung des Modells

Auffälligkeiten

Die auffälligste Beobachtung ist, dass der Adapter keine einzige Stichprobe verarbeitet hat. Dies ist kein Modellversagen, sondern deutet auf ein Konfigurationsproblem hin: entweder wurde der Datensatz nicht geladen, der Adapter-Aufruf schlug lautlos fehl, oder die Verbindung zwischen Benchmark-Runner und Modell (`mlx-community/Qwen3-Coder-Next`) wurde nie hergestellt. Da errors ebenfalls 0 sind, wurde der Fehler offenbar nicht propagiert.

Empfehlung

Vor einer inhaltlichen Bewertung des Modells muss die Pipeline-Konfiguration geprüft werden: Datenpfad des BFCL-Datensatzes verifizieren, den Adapter-Aufruf mit einem minimalen Einzeltest debuggen und sicherstellen, dass das MLX-Modell korrekt geladen wird. Erst nach erfolgreicher Ausführung mit messbaren Samples ist eine Bewertung der Function-Calling-Fähigkeiten möglich.

SWE-bench Lite — Issue-Repair
SWE-bench Lite · v1.0.0+patch-apply-detection
⚠ 9

Kann das Modell echte Bugs in echten Codebasen fixen?

0%
54.9 t/s
0 ok · 1 failed · 9 errors
KI-Bewertung anzeigen

Zusammenfassung

Das Modell `mlx-community/Qwen3-Coder-Next` erreicht auf SWE-bench Lite eine Pass-Rate von 0 %. Von 10 Samples schlugen 9 mit Fehlern und 1 mit einem inhaltlich nicht wertbaren Failure fehl; kein einziger Patch wurde erfolgreich angewendet.

Stärken

  • Das Modell generiert prinzipiell strukturell valide Unified-Diff-Patches (erkennbar am korrekten Diff-Format im Failure-Sample).
  • Der inhaltliche Ansatz im Failure-Beispiel (callable path-Handling in Django) ist konzeptuell nachvollziehbar und zeigt Verständnis des Issues.

Schwächen

  • Nahezu alle Samples scheitern an `patch_apply_failed` — die produzierten Patches passen nicht auf den tatsächlichen Codestand der Repositories.
  • Ein Sample bricht durch einen Idle-Timeout ab, was auf Latenz- oder Ressourcenprobleme beim Inference-Endpunkt hindeutet.
  • Kein einziger Patch führt zu grünen Tests; die Pass-Rate ist 0.

Auffälligkeiten

Das dominierende Fehlermuster ist ausschließlich `patch_apply_failed` (8 von 9 Errors). Dies deutet darauf hin, dass das Modell falsche Zeilennummern, fiktive Commit-Hashes (im Failure sichtbar: `1234567..abcdefg`) oder veraltete Kontextzeilen erzeugt, die nicht auf den echten Repository-Zustand passen. Der Timeout bei einem Sample ist ein separates Infrastrukturproblem.

Empfehlung

Den Patch-Generierungsprozess auf Kontextverankerung prüfen: Das Modell sollte echten Datei-Inhalt als Kontext erhalten (z. B. via File-Read-Tool), bevor es Diffs erzeugt. Zusätzlich den Inference-Endpunkt auf Timeout-Konfiguration und Ressourcen untersuchen.

Live-View

elapsed
Event-Stream

KI-Bewertung

Generiert 2026-05-12 19:42 · claude-sonnet-4-6

Gesamteindruck

Das Modell `mlx-community/Qwen3-Coder-Next` besteht einfache Basis-Checks zuverlässig, scheitert jedoch vollständig bei komplexen Code-Reparatur-Aufgaben und konnte im Function-Calling-Benchmark mangels ausführbarer Tests nicht bewertet werden. Die Diskrepanz zwischen trivialen (100 %) und anspruchsvollen (0 %) Benchmarks ist erheblich.

Stärken

  • Perfekte Pass-Rate bei Sanity-Checks und Format-Compliance (Instruktionsfolge stabil)
  • Fehlerfreier Betrieb bei Throughput-Tests über verschiedene Prompt-Längen
  • Generiert strukturell valide Unified-Diff-Patches mit nachvollziehbarem konzeptuellem Ansatz

Schwächen

  • SWE-bench Lite: 0 % Pass-Rate, dominiert durch `patch_apply_failed` wegen falscher Kontextverankerung
  • Single-Turn Function Calling nicht auswertbar (Pipeline-Konfigurationsproblem)
  • Throughput-Score nur ~0,485 des Referenzwerts; lange Ausgaben werden abgeschnitten
  • Idle-Timeout bei mindestens einem Sample deutet auf Infrastrukturprobleme hin

Empfehlung

Vor einem produktiven Einsatz als Code-Repair- oder Agentic-Coding-Tool muss die Patch-Generierung mit echtem Datei-Kontext als Input und die Function-Calling-Pipeline grundlegend nachgebessert werden.

Stärken & Schwächen

Auf Basis der Pass-Raten dieses Runs

Stärken

Keine Sub-Benchmarks im "good"-Bereich.

Schwächen

  • SWE-bench Lite — Issue-Repair (0%)

Telemetrie

GPU-Auslastung (%)
VRAM (MB)

Snapshots

Konfiguration
7 Felder
{
    "name": "SWE-Bench-Quick / BCFL Quick",
    "provider_id": null,
    "model_id": null,
    "benchmarks": [
        {
            "adapter_key": "bfcl",
            "sub_benchmarks": [
                "single_turn"
            ],
            "threshold_override": null,
            "params": {
                "bfcl_preset": "quick"
            }
        },
        {
            "adapter_key": "swe_bench",
            "sub_benchmarks": [
                "swe_bench_lite"
            ],
            "threshold_override": null,
            "params": {
                "swe_bench_preset": "lite_smoke"
            }
        }
    ],
    "tags": [],
    "notes": null,
    "model": {
        "base_name": "mlx-community/Qwen3-Coder-Next",
        "quantization": "4bit",
        "format": "other",
        "source_url": null,
        "build_notes": null,
        "checksum": null
    }
}
Provider
7 Felder
{
    "name": "ExoBender",
    "type": "exo",
    "endpoint_url": "http://100.64.0.2:52415",
    "api_key_env_var": null,
    "sampling_params": [],
    "provider_specific": [],
    "telemetry_sample_interval_ms": 1000
}
Hardware
1 Felder
[
    {
        "name": "kim",
        "hostname": "100.64.0.4",
        "gpu_description": "RTX 5080 16GB",
        "cpu": "Ryzen 9800 X3D",
        "ram": "64GB DDR5",
        "storage": "1TB+4TB SSD",
        "network": null,
        "notes": null
    }
]
System
6 Felder
{
    "php_version": "8.4.21",
    "os": "Linux",
    "os_release": "6.8.0-111-generic",
    "symfony_version": "7.4.10",
    "provider_version_hint": null,
    "recorded_at": "2026-05-12T19:28:47+02:00"
}

Log-Verzeichnis

/home/webuser/htdocs/llmbench.mandarin.dev/dev/app/var/logs/runs/68