Run #68
Wie schnell antwortet das Modell auf den ersten Token-Stream nach Aufruf?
KI-Bewertung anzeigen
Zusammenfassung
Der Cold-Start-TTFT-Benchmark wurde mit einer Pass-Rate von 100 % bestanden. Bei einem einzigen Testfall antwortete das Modell korrekt und ohne Fehler.
Stärken
- Perfekte Pass-Rate (1/1) ohne Fehler oder Failures
- Modell liefert exakt die geforderte Ausgabe ohne Zusatztext oder Formatierungsabweichungen
Schwächen
- Stichprobengröße von n=1 erlaubt keine statistisch belastbaren Aussagen
- Nur ein triviales Prompt getestet; komplexere Cold-Start-Szenarien bleiben unbewertet
Auffälligkeiten
Keine Muster erkennbar, da lediglich ein einziger Erfolgsfall vorliegt. Der Test prüft ausschließlich, ob überhaupt ein erster Token generiert wird, nicht die tatsächliche Latenz in Millisekunden — ein numerischer TTFT-Wert fehlt in den Metriken vollständig.
Empfehlung
Den Benchmark um mindestens 10–20 Durchläufe mit variierenden Prompt-Längen erweitern und die tatsächliche TTFT-Latenz in Millisekunden als Metrik erfassen, um aussagekräftige Aussagen über das Cold-Start-Verhalten von `mlx-community/Qwen3-Coder-Next` treffen zu können.
Liefert der Endpoint überhaupt korrekte Antworten auf einfachste Fragen?
KI-Bewertung anzeigen
Zusammenfassung
Der Sanity-Benchmark wurde mit einer Pass-Rate von 100 % (10/10) fehlerfrei bestanden. Das Modell liefert auf triviale Fragen korrekte, präzise und formatgetreue Antworten.
Stärken
- Vollständige Korrektheit bei allen zehn Testfragen ohne Ausnahme
- Strikte Einhaltung der Formatvorgaben (nur Zahl, nur ein Wort, Großbuchstaben) ohne unerwünschte Zusatztexte
- Keine Timeouts oder Fehler auf Infrastrukturebene
Schwächen
- Keine Schwächen im Rahmen dieses Benchmarks feststellbar
- Der Smoke-Test deckt ausschließlich triviale Fälle ab; Rückschlüsse auf komplexere Aufgaben sind nicht möglich
Auffälligkeiten
Keine Muster in Failures erkennbar, da keinerlei Fehler aufgetreten sind. Die Antworten sind durchgehend minimal und exakt, was auf ein gut konfiguriertes Ausgabe-Trimming oder ein Modell mit starker Instruktionsfolge hindeutet.
Empfehlung
Den Sanity-Benchmark als bestanden abhaken und die Testtiefe erhöhen: als nächsten Schritt einen anspruchsvolleren Sub-Benchmark mit mehrstufigem Reasoning, längeren Kontexten oder mehrsprachigen Prompts ausführen, um belastbarere Aussagen über die tatsächliche Modellqualität zu erhalten.
Wie viele Tokens pro Sekunde liefert das Modell unter realistischer Last?
KI-Bewertung anzeigen
Zusammenfassung
Der Throughput-Benchmark wurde mit einer Pass-Rate von 100 % (6/6) ohne Fehler abgeschlossen. Der Score von 0,485 deutet auf eine moderate Inferenzgeschwindigkeit hin, die unter dem angestrebten Referenzwert liegt.
Stärken
- Vollständige Fehlerfreiheit: keine Errors, keine Failures über alle sechs Prompts
- Korrekte und inhaltlich solide Antworten bei allen Prompt-Typen (kurz, mittel, lang)
- Stabile Ausgaben auch beim komplexesten Prompt (Quicksort-Pseudocode mit Erklärungen)
Schwächen
- Score von ~0,485 signalisiert, dass die Tokens/sec nur knapp unter der Hälfte des Benchmark-Maximums liegen
- Beim langen Quicksort-Prompt wurde die Antwort offenbar abgeschnitten (Pseudocode endet mitten im Satz), was auf ein Token-Limit oder Streaming-Problem hindeutet
Auffälligkeiten
Die abgeschnittene Quicksort-Antwort ist auffällig: Der Pseudocode bricht im Kommentar-Abschnitt der Partition-Funktion ab. Dies könnte auf eine zu niedrig gesetzte `max_tokens`-Grenze oder einen Streaming-Abbruch bei langen Outputs hinweisen. Alle anderen Antworten sind vollständig. Kein Muster bei bestimmten Sprachen oder Prompt-Stilen erkennbar.
Empfehlung
Den `max_tokens`-Parameter für den langen Prompt-Slot erhöhen und prüfen, ob der Streaming-Buffer bei längeren Ausgaben korrekt flusht. Zudem sollte die Rohzahl der Tokens/sec protokolliert werden, um den Score von 0,485 besser einordnen und gegebenenfalls Quantisierungsstufe oder Batch-Größe anpassen zu können.
Ruft das Modell die richtige Funktion mit den richtigen Argumenten auf?
KI-Bewertung anzeigen
Zusammenfassung
Der Sub-Benchmark „Single-Turn Function Calling" liefert keinerlei auswertbare Ergebnisse, da weder Erfolge noch Fehler noch Testfälle verzeichnet wurden. Die Pass-Rate ist undefiniert (null), was auf ein strukturelles Problem bei der Ausführung hindeutet.
Stärken
- Keine Laufzeitfehler (errors: 0), d.h. das Modell hat keine Abstürze oder unbehandelte Ausnahmen verursacht
- Keine expliziten Failures registriert
Schwächen
- Vollständig fehlende Testergebnisse: 0 Samples insgesamt
- Pass-Rate und Score sind nicht berechenbar
- Keine Grundlage für eine inhaltliche Bewertung des Modells
Auffälligkeiten
Die auffälligste Beobachtung ist, dass der Adapter keine einzige Stichprobe verarbeitet hat. Dies ist kein Modellversagen, sondern deutet auf ein Konfigurationsproblem hin: entweder wurde der Datensatz nicht geladen, der Adapter-Aufruf schlug lautlos fehl, oder die Verbindung zwischen Benchmark-Runner und Modell (`mlx-community/Qwen3-Coder-Next`) wurde nie hergestellt. Da errors ebenfalls 0 sind, wurde der Fehler offenbar nicht propagiert.
Empfehlung
Vor einer inhaltlichen Bewertung des Modells muss die Pipeline-Konfiguration geprüft werden: Datenpfad des BFCL-Datensatzes verifizieren, den Adapter-Aufruf mit einem minimalen Einzeltest debuggen und sicherstellen, dass das MLX-Modell korrekt geladen wird. Erst nach erfolgreicher Ausführung mit messbaren Samples ist eine Bewertung der Function-Calling-Fähigkeiten möglich.
Kann das Modell echte Bugs in echten Codebasen fixen?
KI-Bewertung anzeigen
Zusammenfassung
Das Modell `mlx-community/Qwen3-Coder-Next` erreicht auf SWE-bench Lite eine Pass-Rate von 0 %. Von 10 Samples schlugen 9 mit Fehlern und 1 mit einem inhaltlich nicht wertbaren Failure fehl; kein einziger Patch wurde erfolgreich angewendet.
Stärken
- Das Modell generiert prinzipiell strukturell valide Unified-Diff-Patches (erkennbar am korrekten Diff-Format im Failure-Sample).
- Der inhaltliche Ansatz im Failure-Beispiel (callable path-Handling in Django) ist konzeptuell nachvollziehbar und zeigt Verständnis des Issues.
Schwächen
- Nahezu alle Samples scheitern an `patch_apply_failed` — die produzierten Patches passen nicht auf den tatsächlichen Codestand der Repositories.
- Ein Sample bricht durch einen Idle-Timeout ab, was auf Latenz- oder Ressourcenprobleme beim Inference-Endpunkt hindeutet.
- Kein einziger Patch führt zu grünen Tests; die Pass-Rate ist 0.
Auffälligkeiten
Das dominierende Fehlermuster ist ausschließlich `patch_apply_failed` (8 von 9 Errors). Dies deutet darauf hin, dass das Modell falsche Zeilennummern, fiktive Commit-Hashes (im Failure sichtbar: `1234567..abcdefg`) oder veraltete Kontextzeilen erzeugt, die nicht auf den echten Repository-Zustand passen. Der Timeout bei einem Sample ist ein separates Infrastrukturproblem.
Empfehlung
Den Patch-Generierungsprozess auf Kontextverankerung prüfen: Das Modell sollte echten Datei-Inhalt als Kontext erhalten (z. B. via File-Read-Tool), bevor es Diffs erzeugt. Zusätzlich den Inference-Endpunkt auf Timeout-Konfiguration und Ressourcen untersuchen.
Live-View
KI-Bewertung
Generiert 2026-05-12 19:42 · claude-sonnet-4-6Gesamteindruck
Das Modell `mlx-community/Qwen3-Coder-Next` besteht einfache Basis-Checks zuverlässig, scheitert jedoch vollständig bei komplexen Code-Reparatur-Aufgaben und konnte im Function-Calling-Benchmark mangels ausführbarer Tests nicht bewertet werden. Die Diskrepanz zwischen trivialen (100 %) und anspruchsvollen (0 %) Benchmarks ist erheblich.
Stärken
- Perfekte Pass-Rate bei Sanity-Checks und Format-Compliance (Instruktionsfolge stabil)
- Fehlerfreier Betrieb bei Throughput-Tests über verschiedene Prompt-Längen
- Generiert strukturell valide Unified-Diff-Patches mit nachvollziehbarem konzeptuellem Ansatz
Schwächen
- SWE-bench Lite: 0 % Pass-Rate, dominiert durch `patch_apply_failed` wegen falscher Kontextverankerung
- Single-Turn Function Calling nicht auswertbar (Pipeline-Konfigurationsproblem)
- Throughput-Score nur ~0,485 des Referenzwerts; lange Ausgaben werden abgeschnitten
- Idle-Timeout bei mindestens einem Sample deutet auf Infrastrukturprobleme hin
Empfehlung
Vor einem produktiven Einsatz als Code-Repair- oder Agentic-Coding-Tool muss die Patch-Generierung mit echtem Datei-Kontext als Input und die Function-Calling-Pipeline grundlegend nachgebessert werden.
Stärken & Schwächen
Auf Basis der Pass-Raten dieses RunsStärken
Keine Sub-Benchmarks im "good"-Bereich.
Schwächen
- SWE-bench Lite — Issue-Repair (0%)
Telemetrie
Snapshots
{
"name": "SWE-Bench-Quick / BCFL Quick",
"provider_id": null,
"model_id": null,
"benchmarks": [
{
"adapter_key": "bfcl",
"sub_benchmarks": [
"single_turn"
],
"threshold_override": null,
"params": {
"bfcl_preset": "quick"
}
},
{
"adapter_key": "swe_bench",
"sub_benchmarks": [
"swe_bench_lite"
],
"threshold_override": null,
"params": {
"swe_bench_preset": "lite_smoke"
}
}
],
"tags": [],
"notes": null,
"model": {
"base_name": "mlx-community/Qwen3-Coder-Next",
"quantization": "4bit",
"format": "other",
"source_url": null,
"build_notes": null,
"checksum": null
}
}
{
"name": "ExoBender",
"type": "exo",
"endpoint_url": "http://100.64.0.2:52415",
"api_key_env_var": null,
"sampling_params": [],
"provider_specific": [],
"telemetry_sample_interval_ms": 1000
}
[
{
"name": "kim",
"hostname": "100.64.0.4",
"gpu_description": "RTX 5080 16GB",
"cpu": "Ryzen 9800 X3D",
"ram": "64GB DDR5",
"storage": "1TB+4TB SSD",
"network": null,
"notes": null
}
]
{
"php_version": "8.4.21",
"os": "Linux",
"os_release": "6.8.0-111-generic",
"symfony_version": "7.4.10",
"provider_version_hint": null,
"recorded_at": "2026-05-12T19:28:47+02:00"
}