Run #70
Wie schnell antwortet das Modell auf den ersten Token-Stream nach Aufruf?
KI-Bewertung anzeigen
Zusammenfassung
Der Cold-Start-TTFT-Benchmark wurde mit einer Pass-Rate von 100 % (1/1) bestanden. Das Modell lieferte auf den minimalen Prompt „Antworte nur mit OK." korrekt und ohne Fehler die erwartete Antwort.
Stärken
- Fehlerfreie Ausführung: weder Errors noch Failures aufgezeichnet
- Korrekte und präzise Antwort ohne überflüssige Tokens oder Abweichungen vom erwarteten Format
Schwächen
- Stichprobengröße von n=1 erlaubt keine statistisch belastbaren Aussagen über die tatsächliche TTFT-Stabilität
- Keine konkreten Latenzmesswerte (ms) im Report vorhanden, was eine quantitative Bewertung unmöglich macht
Auffälligkeiten
Keine Muster erkennbar, da nur ein einzelner Testfall vorliegt. Der Prompt ist bewusst minimal gehalten, was keine Aussagen über das Verhalten bei komplexeren oder längeren Eingaben zulässt. Es ist unklar, ob „Cold-Start" tatsächlich einen Kaltstart ohne gecachte Modelldaten abbildet oder ob der Adapter dies nicht explizit kontrolliert.
Empfehlung
Den Benchmark auf mindestens 10–20 Wiederholungen ausweiten und dabei tatsächliche TTFT-Messwerte in Millisekunden erfassen, um Varianz und Ausreißer zu erkennen. Zusätzlich sollte geprüft werden, ob der Kaltstart-Zustand reproduzierbar erzwungen wird (z.B. durch Model-Unload vor jedem Lauf), damit der Sub-Benchmark seinen beschriebenen Zweck zuverlässig erfüllt.
Liefert der Endpoint überhaupt korrekte Antworten auf einfachste Fragen?
KI-Bewertung anzeigen
Zusammenfassung
Der Sanity-Benchmark wurde mit einer Pass-Rate von 100 % (10/10) fehlerfrei bestanden. Das Modell liefert auf alle trivialen Fragen korrekte, präzise Antworten ohne Fehler oder Abweichungen.
Stärken
- Vollständige Korrektheit bei allen Faktenfragen (Geografie, Mathematik, Allgemeinwissen)
- Strikte Befolgung der Formatvorgaben: Antworten bestehen ausschließlich aus dem geforderten Wort oder der Zahl, kein überflüssiger Text
- Null Fehler und null Ausfälle, der Endpoint ist stabil erreichbar und antwortet konsistent
Schwächen
- Keine Schwächen im Rahmen dieses Tests erkennbar
- Der Benchmark deckt ausschließlich triviale Fälle ab und erlaubt keine Rückschlüsse auf komplexere Aufgaben
Auffälligkeiten
Keine Muster in Failures oder Errors feststellbar, da sämtliche Stichproben erfolgreich waren. Die Antwortlänge ist in allen Fällen minimal und exakt passend zur Anforderung, was auf ein gutes Instruction-Following hindeutet.
Empfehlung
Der Sanity-Check ist bestanden und erfordert keine Anpassungen. Als nächsten Schritt sollten anspruchsvollere Sub-Benchmarks ausgeführt werden (z. B. Reasoning, Code-Generierung oder mehrsprachige Prompts), um belastbarere Aussagen über die tatsächliche Modellqualität unter realen Bedingungen zu gewinnen.
Wie viele Tokens pro Sekunde liefert das Modell unter realistischer Last?
KI-Bewertung anzeigen
Zusammenfassung
Der Throughput-Benchmark wurde mit einer Pass-Rate von 100 % (6/6) ohne Fehler abgeschlossen. Der normalisierte Score von 0,491 deutet auf eine moderate Inferenzgeschwindigkeit hin, die noch Luft nach oben lässt.
Stärken
- Vollständige Fehlerfreiheit: Kein einziger Error oder Failure über alle Prompt-Typen hinweg
- Korrekte und qualitativ hochwertige Antworten über alle Schwierigkeitsstufen (kurz bis lang), was auf stabile Modellausgaben hindeutet
Schwächen
- Score von ~0,49 bedeutet, dass das Modell nur etwa die Hälfte der Referenz-Tokens/sec erreicht — für produktive Last möglicherweise zu langsam
- Bei komplexeren Prompts (Quicksort-Pseudocode) wirken die Antworten abgeschnitten, was auf Token-Limits oder Puffer-Engpässe beim Streaming hinweisen könnte
Auffälligkeiten
Die Quicksort-Antwort endet mitten im Algorithmus (`// 2. Bewege j ...`), ohne den Partitionierungsalgorithmus zu vervollständigen. Dies tritt ausgerechnet beim längsten Prompt auf und könnte ein systematisches Problem bei langen Outputs im Streaming-Modus sein — nicht nur ein inhaltliches, sondern potenziell ein technisches Truncation-Problem.
Empfehlung
Den langen Prompt (Quicksort) gezielt mit erhöhtem `max_tokens`-Limit wiederholen, um zu prüfen, ob das Truncating ein Konfigurationsproblem ist. Parallel sollte geprüft werden, ob ein Wechsel zu einer höher quantisierten MLX-Variante (z. B. 4-bit statt 8-bit) den Throughput-Score deutlich über 0,6 anhebt, ohne Qualitätsverluste einzuführen.
Ruft das Modell die richtige Funktion mit den richtigen Argumenten auf?
BFCL-Output fehlt für single_turn
KI-Bewertung anzeigen
Zusammenfassung
Der Sub-Benchmark „Single-Turn Function Calling" liefert keinerlei auswertbare Ergebnisse, da weder Erfolge noch Fehler noch Samples vorliegen. Die Pass-Rate ist undefiniert (null), was auf ein fundamentales Ausführungsproblem hinweist.
Stärken
- Keine Laufzeitfehler (errors: 0), das Modell hat sich nicht abgestürzt oder ungültige Ausgaben erzeugt
- Die Infrastruktur scheint stabil zu sein, da keine Exceptions geloggt wurden
Schwächen
- Null ausgewertete Samples — der Benchmark hat de facto nicht stattgefunden
- Kein Score, keine Pass-Rate: Es lässt sich absolut keine Aussage über die Modell-Qualität treffen
- Das Modell `mlx-community/Qwen3-Coder-Next` ist vollständig unbewertet geblieben
Auffälligkeiten
Das auffälligste Muster ist das vollständige Fehlen jeglicher Samples (successes, failures, errors sind allesamt leere Listen). Dies deutet nicht auf ein Modellproblem hin, sondern auf ein Problem im Benchmark-Setup selbst: möglicherweise wurde der Datensatz nicht geladen, der Adapter nicht korrekt initialisiert oder die Verbindung zum Test-Backend unterbrochen. Es handelt sich um einen strukturellen Ausführungsfehler, nicht um ein Inferenz-Problem.
Empfehlung
Vor jeder inhaltlichen Modell-Bewertung muss die Benchmark-Pipeline debuggt werden: Datensatz-Pfad und BFCL-Adapter-Konfiguration für `single_turn` prüfen, sicherstellen dass die Testfälle korrekt geladen und an das Modell weitergegeben werden, und den Benchmark anschließend erneut ausführen.
Kann das Modell mehrstufig rechnen und Zwischenergebnisse halten?
KI-Bewertung anzeigen
Zusammenfassung
Das Modell `mlx-community/Qwen3-Coder-Next` erreicht auf GSM8K eine Pass-Rate von 87,6 % (Score 0,855) und bewältigt den Großteil der mehrstufigen Grundschulmathe-Aufgaben korrekt. Rund 12,4 % der Aufgaben werden falsch gelöst, ohne dass Fehler (Errors) auftreten.
Stärken
- Stabile Abarbeitung einfacher bis mittelkomplexer Kettenberechnungen (Stufenweise, klar strukturiert)
- Korrekte Anwendung von Bruch- und Prozentrechnung in vielen Fällen
- Null technische Fehler (Errors = 0), Modell antwortet immer
Schwächen
- Fehler bei Rückwärts-Schließen (Vacuumcleaner-Aufgabe: Gleichungsansatz korrekt, aber Off-by-one bei Jahreszählung)
- Inkonsistente Interpretation mehrdeutiger Formulierungen (z. B. „150% increase" bei der Hausaufgabe, „10% speed increase" vs. „10% time reduction")
- Gelegentliches Abschneiden der Antwort innerhalb der Berechnung (unvollständige Response-Strings in mehreren Failures sichtbar)
- Off-by-one-Fehler bei inklusiven Jahresspannen (Quiltblock-Aufgabe: 34−23=11 statt 12)
Auffälligkeiten
Failures konzentrieren sich auf zwei Muster: (1) Aufgaben, bei denen prozentuale Änderungen auf Zeit statt auf Strecke/Betrag bezogen werden müssen (Rennzeit vs. Geschwindigkeit), und (2) Aufgaben mit rückwärts gerichteter Logik (Ausgangszahl aus Endwert ableiten). Zudem gibt es Hinweise auf abgeschnittene Antworten, was auf Token-Limit-Probleme bei längeren Reasoning-Ketten hindeutet.
Empfehlung
Token-Limit (max_new_tokens) prüfen und ggf. erhöhen, um abgeschnittene Antworten zu vermeiden; zusätzlich gezielte Few-Shot-Beispiele für prozentuale Rate-vs.-Zeit-Konversionen und Rückwärts-Schließen-Aufgaben einführen.
KI-Bewertung anzeigen
Zusammenfassung
Das Modell `mlx-community/Qwen3-Coder-Next` erzielt auf dem HumanEval-Benchmark eine Pass-Rate von 0 % — keine einzige der 164 Aufgaben wird korrekt gelöst. Es treten dabei keinerlei Laufzeitfehler auf, was auf ein systematisches Ausgabeformat-Problem hindeutet.
Stärken
- Das Modell versteht die Aufgaben inhaltlich: Die Antworten enthalten korrekte Erklärungen, Lösungsansätze und Algorithmen.
- Keine Errors (0 Crashes), das Modell generiert konsistent Ausgaben.
Schwächen
- Jede Antwort endet mit einem unvollständigen Code-Block: Das Modell schreibt den Funktionskopf in den Prompt-Kontext und bricht dann genau dort ab, wo der eigentliche Funktionskörper beginnen müsste.
- Die Stop-Sequenzen (`\ndef`, `\nclass`, etc.) schneiden den generierten Code offensichtlich ab, bevor die Implementierung ausgegeben wird.
Auffälligkeiten
Alle 164 Failures zeigen dasselbe Muster: Das Modell produziert einen einleitenden Erklärungstext auf Englisch, öffnet einen Markdown-Codeblock mit ` ```python `, gibt dann den Import und ggf. den Funktionskopf aus — und dort greift die Stop-Sequenz `\ndef` und beendet die Generierung vorzeitig. Der eigentliche Funktionskörper wird nie ausgegeben. Dies ist kein Kompetenzproblem, sondern ein reines Konfigurationsproblem.
Empfehlung
Die Stop-Sequenz `\ndef` muss aus dem Harness-Konfiguration entfernt oder durch eine spezifischere Sequenz (z. B. `\n\ndef ` mit zwei Zeilenumbrüchen) ersetzt werden, da das Modell intern mit einem Reasoning/Thinking-Block oder Markdown-Codeblöcken arbeitet, in denen `def` legitim vorkommt. Alternativ sollte ein Chat-Template-Wrapper eingesetzt werden, der den Code nach dem schließenden ` ``` ` extrahiert.
Folgt das Modell strikten Anweisungen ohne Eigeninterpretation?
KI-Bewertung anzeigen
Zusammenfassung
Das Modell erreicht eine Pass-Rate von 80,2 % im IFEval-Benchmark, was auf solide, aber nicht fehlerfreie Befolgung strikter Formatanweisungen hindeutet. Bei rund einem Fünftel der Aufgaben scheitert es an präzisen Format- oder Inhaltsvorgaben.
Stärken
- Komplexe Mehrfachanweisungen (z. B. Abschnittstitel mit `SECTION X`, doppelte eckige Klammern, Wiederholung des Prompts) werden zuverlässig umgesetzt.
- Sprachliche Constraints wie Kommaverbot oder reine Kleinschreibung werden in vielen Fällen korrekt eingehalten.
- Keine technischen Errors (0 von 541 Anfragen).
Schwächen
- Exakte Zählvorgaben werden nicht eingehalten: Bei Bullet-Point-Aufgaben liefert das Modell 6 statt 3 Punkte; Pflichtwiederholungen enthalten unerlaubte Zusatzzeichen.
- Strenges Zeichenausschlussverbot (z. B. kein „t" im gesamten Text, kein „c") wird konsequent verletzt — das Modell hält solche Low-Level-Constraints nicht durchgängig ein.
- Formatvorgaben wie „genau zwei Antworten, getrennt durch `**`" werden ignoriert (nur eine Antwort ohne Trennzeichen).
- Längenvorgaben (mind. 800 Wörter, in doppelte Anführungszeichen gewickelt) werden teils nur unvollständig oder abgeschnitten erfüllt.
Auffälligkeiten
Die Failures konzentrieren sich auf zwei Mustertypen: (1) Zeichenebene-Constraints (verbotene Buchstaben, exakte Sondersymbol-Wiederholungen) und (2) exakte Mengenvorgaben (Bullet-Anzahl, Antwort-Anzahl). Komplexere semantische Anweisungen gelingen besser als niedrigschwellige, mechanische Formatregeln.
Empfehlung
Gezielte Feinabstimmung oder Chain-of-Thought-Prompting speziell für Zähl- und Zeichenebene-Constraints einsetzen; alternativ einen systematischen Constraint-Verifier als Post-Processing-Schicht ergänzen und den IFEval-Subset mit Zeichenausschluss-Aufgaben gesondert evaluieren.
Kann das Modell echte Bugs in echten Codebasen fixen?
KI-Bewertung anzeigen
Zusammenfassung
Das Modell Qwen3-Coder-Next erzielt auf SWE-bench Lite eine Pass-Rate von 0 % – kein einziger Patch wurde erfolgreich angewendet und getestet. Von 10 Samples schlugen 9 mit Fehlern und 1 mit einem inhaltlich falschen Patch fehl.
Stärken
- Das Modell produziert strukturell valides Diff-Format (erkennbar am einzigen Failure-Sample).
- Die inhaltliche Logik des Django-Patches (callable-Check für `FilePathField.path`) ist konzeptionell nachvollziehbar.
Schwächen
- 8 von 9 Errors sind `patch_apply_failed`: Die generierten Patches passen nicht auf den tatsächlichen Quellcode.
- 1 Timeout deutet auf Stabilitätsprobleme bei der Inferenz-Endpunkt-Verbindung hin.
- Die Pass-Rate ist 0 – kein Patch besteht die Tests, selbst wenn er formal angewandt werden könnte.
Auffälligkeiten
Das dominierende Muster ist eindeutig: `patch_apply_failed` tritt in 8 von 9 Fehlerfällen auf. Das deutet darauf hin, dass das Modell falsche Zeilennummern oder fiktive Commit-Hashes (z. B. `1234567..abcdefg`) in den Diff-Headern erzeugt. Die Kontextzeilen stimmen offenbar nicht mit dem tatsächlichen Repository-Stand überein – ein klassisches Halluzinationsproblem beim Code-Grounding ohne direkten Dateizugriff.
Empfehlung
Den Tool-Calling- bzw. Repository-Kontext prüfen: Das Modell erhält offenbar keinen tatsächlichen Dateiinhalt zur Patch-Generierung. Es sollte sichergestellt werden, dass der relevante Quellcode als Kontext übergeben wird. Alternativ einen Retrieval-Step (z. B. exakten File-Fetch per SWE-bench-Harness) vorschalten und danach den Sub-Benchmark erneut evaluieren.
Live-View
KI-Bewertung
Generiert 2026-05-13 04:00 · claude-sonnet-4-6Gesamteindruck
`mlx-community/Qwen3-Coder-Next` zeigt solide Grundfähigkeiten in Faktenwissen, Mathematik und Instruction-Following, scheitert aber vollständig an praxisrelevanten Code-Aufgaben (HumanEval, SWE-bench). Dabei sind mehrere Nullergebnisse auf Konfigurationsfehler im Benchmark-Harness zurückzuführen, was die Aussagekraft des Gesamtbildes einschränkt.
Stärken
- Fehlerfreies Sanity- und Cold-Start-Verhalten, stabiler Endpoint ohne Crashes
- GSM8K mit 87,6 % Pass-Rate auf solidem Niveau für mehrstufige Mathematikaufgaben
- IFEval mit 80,2 % zeigt gutes semantisches Instruction-Following bei komplexen Mehrfachanweisungen
- Konsistente Ausgaben ohne technische Fehler quer durch alle Benchmarks
Schwächen
- HumanEval: 0 % durch Stop-Sequenz-Fehlkonfiguration -- tatsächliche Codegen-Qualität unklar, aber kein nutzbares Ergebnis
- SWE-bench: 0 % wegen halluzinierter Zeilennummern und fehlendem Dateikontext -- praxistaugliches Issue-Repair nicht gegeben
- Throughput-Score nur ~0,49 der Referenz, mit Truncation-Problemen bei langen Ausgaben
- Zeichenebene-Constraints (verbotene Buchstaben, exakte Mengenangaben) werden systematisch verletzt
Empfehlung
Vor einer produktiven Nutzung als Coding-Assistent unbedingt die Harness-Konfiguration korrigieren (Stop-Sequenzen, Repository-Kontext, Token-Limits) und HumanEval sowie SWE-bench neu evaluieren.
Stärken & Schwächen
Auf Basis der Pass-Raten dieses RunsStärken
- GSM8K — Grundschulmathe (87.6%)
- IFEval — Instruction Following (80.2%)
Schwächen
- humaneval (0%)
- SWE-bench Lite — Issue-Repair (0%)
Telemetrie
Snapshots
{
"name": "Qwen-3-Coder ALL",
"provider_id": null,
"model_id": null,
"benchmarks": [
{
"adapter_key": "bfcl",
"sub_benchmarks": [
"single_turn"
],
"threshold_override": null,
"params": {
"bfcl_preset": "quick"
}
},
{
"adapter_key": "lm_eval_harness",
"sub_benchmarks": [
"gsm8k",
"humaneval",
"ifeval"
],
"threshold_override": null
},
{
"adapter_key": "swe_bench",
"sub_benchmarks": [
"swe_bench_lite"
],
"threshold_override": null,
"params": {
"swe_bench_preset": "lite_smoke"
}
}
],
"tags": [],
"notes": null,
"model": {
"base_name": "mlx-community/Qwen3-Coder-Next",
"quantization": "4bit",
"format": "other",
"source_url": null,
"build_notes": null,
"checksum": null
}
}
{
"name": "ExoCluster",
"type": "exo",
"endpoint_url": "http://100.64.0.2:52415",
"api_key_env_var": null,
"sampling_params": [],
"provider_specific": [],
"telemetry_sample_interval_ms": 1000
}
[
{
"name": "bender",
"hostname": "192.168.3.147",
"gpu_description": "Mac Mini M4 Pro 20C",
"cpu": "M4 Pro",
"ram": "64 GB",
"storage": "2TB",
"network": null,
"notes": null
},
{
"name": "zoidberg",
"hostname": "192.168.3.79",
"gpu_description": "Mac Mini M4 Pro 20C",
"cpu": "M4 Pro",
"ram": "64GB",
"storage": "2TB",
"network": null,
"notes": null
}
]
{
"php_version": "8.4.21",
"os": "Linux",
"os_release": "6.8.0-111-generic",
"symfony_version": "7.4.10",
"provider_version_hint": null,
"recorded_at": "2026-05-12T22:36:16+02:00"
}