Run #57
Wie schnell antwortet das Modell auf den ersten Token-Stream nach Aufruf?
KI-Bewertung anzeigen
Zusammenfassung
Der Cold-Start-TTFT-Benchmark wurde mit einer Pass-Rate von 100 % bestanden. Das Modell antwortete auf die erste Stream-Anfrage korrekt und ohne Fehler.
Stärken
- Perfekte Pass-Rate (1/1) ohne Fehler oder Fehlschläge
- Exakte, instruktionstreue Antwort ("OK") ohne überflüssige Tokens oder Abweichungen vom Format
Schwächen
- Stichprobengröße von n=1 erlaubt keine statistisch belastbare Aussage über die tatsächliche TTFT-Stabilität
- Kein konkreter Latenzwert (ms) im Report enthalten, sodass die eigentliche Kernmetrik nicht bewertet werden kann
Auffälligkeiten
Keine Failures oder Errors vorhanden. Der Prompt war bewusst minimal gehalten ("Antworte nur mit OK"), was zwar ideal für TTFT-Messung ist, aber keine Rückschlüsse auf das Verhalten bei komplexeren Anfragen erlaubt. Das Fehlen numerischer Latenzdaten im Output ist auffällig für einen Benchmark, dessen erklärtes Ziel die Messung der Time-To-First-Token ist.
Empfehlung
Den Benchmark um mindestens 5–10 Wiederholungen mit demselben minimalen Prompt erweitern und die tatsächlichen TTFT-Werte in Millisekunden im Report erfassen, um Ausreißer und Varianz des Cold-Start-Verhaltens des Modells `mlx-community/Qwen3-Coder-Next` zuverlässig beurteilen zu können.
Liefert der Endpoint überhaupt korrekte Antworten auf einfachste Fragen?
KI-Bewertung anzeigen
Zusammenfassung
Der Sanity-Benchmark wurde mit einer Pass-Rate von 100 % (10/10) fehlerlos bestanden. Das Modell liefert auf alle trivialen Fragen korrekte und formatgerechte Antworten.
Stärken
- Vollständige Korrektheit bei arithmetischen, geographischen und faktischen Fragen
- Strikte Einhaltung der Formatvorgaben (Einzelwort, Zahl, Großbuchstaben) ohne zusätzliche Ausschweifungen
Schwächen
- Keine Schwächen identifizierbar — der Benchmark ist jedoch trivial und aussagekräftig nur als Basisprüfung
Auffälligkeiten
Keine Fehler oder Muster erkennbar. Alle Antworten sind präzise und minimal, was auf gutes Instruction-Following bei einfachen, eng formulierten Prompts hindeutet. Die Stichproben zeigen keinerlei Tendenz zu Verbose-Antworten oder Formatverletzungen.
Empfehlung
Den Sanity-Benchmark als bestanden betrachten und die Ressourcen auf anspruchsvollere Sub-Benchmarks konzentrieren (z. B. Reasoning, längere Kontexte oder mehrsprachige Prompts), da dieser Test keine Schwachstellen aufdeckt und keine weiteren Maßnahmen erfordert.
Wie viele Tokens pro Sekunde liefert das Modell unter realistischer Last?
KI-Bewertung anzeigen
Zusammenfassung
Der Throughput-Benchmark wurde fehlerfrei mit einer Pass-Rate von 1,0 abgeschlossen. Der erzielte Score von 0,46 entspricht etwa 46 % des Referenzwerts, was auf einen moderaten Durchsatz hinweist.
Stärken
- Keine Fehler oder Ausfälle bei allen sechs Prompts unterschiedlicher Länge und Komplexität
- Korrekte und inhaltlich vollständige Antworten auf alle Prompt-Typen (kurz, mittel, lang)
Schwächen
- Score von 0,46 deutet darauf hin, dass das Modell nur knapp die Hälfte des Referenz-Durchsatzes erreicht
- Bei langen Prompts (Quicksort-Pseudocode) wurde die Antwort offenbar abgeschnitten — der Pseudocode für die `partition`-Funktion endet mitten im Code
Auffälligkeiten
Der einzige strukturelle Ausreißer ist die abgeschnittene Quicksort-Antwort: Die `partition`-Prozedur bricht nach der Initialisierung von `i` ab. Dies könnte auf ein Token-Limit oder einen Streaming-Abbruch bei langen Antworten hinweisen, nicht auf inhaltliche Schwäche des Modells. Alle anderen Antworten sind vollständig. Zudem enthält das Modell in mehreren kurzen Antworten Emojis, was je nach Einsatzszenario unerwünscht sein kann.
Empfehlung
Den maximalen Output-Token-Limit für den langen Prompt-Typ erhöhen und prüfen, ob die abgeschnittene Ausgabe den Throughput-Score negativ beeinflusst. Zusätzlich empfiehlt sich ein direkter Vergleich mit einem kleineren oder stärker quantisierten Modell, um die Ursache des niedrigen Scores (Modellgröße vs. Quantisierung) zu isolieren.
Kann das Modell echte Bugs in echten Codebasen fixen?
KI-Bewertung anzeigen
Zusammenfassung
Der Benchmark liefert kein verwertbares Ergebnis: Alle 10 Stichproben endeten mit einem Fehler, es gibt weder Erfolge noch Failures im klassischen Sinne. Eine Pass-Rate kann nicht berechnet werden.
Stärken
- Keine inhaltlichen Fehler (falsche Logik, Halluzinationen) wurden beobachtet, da kein Patch überhaupt angewendet wurde.
- Das Fehlerverhalten ist konsistent und klar diagnostizierbar.
Schwächen
- 100 % der Samples scheitern mit `patch_apply_failed`, d.h. das Modell produziert Patches, die technisch nicht auf den Ziel-Codestand angewendet werden können.
- Pass-Rate und Score sind vollständig undefiniert — der Benchmark ist faktisch wertlos für einen Modellvergleich.
Auffälligkeiten
Alle 10 Fehler tragen exakt denselben Fehlercode (`patch_apply_failed`) ohne weitere Differenzierung. Dies deutet nicht auf ein inhaltliches Modellproblem hin, sondern auf ein systematisches Problem in der Patch-Generierung oder -Formatierung: falsche Kontextzeilen, falsche Dateipfade im Diff-Header oder ein Mismatch zwischen dem Ziel-Commit und dem vom Modell angenommenen Codestand.
Empfehlung
Vor einer erneuten Ausführung sollte die Patch-Extraktion und -Formatierung im Adapter geprüft werden: Stimmt das Diff-Format (`unified diff`, korrekte `a/`-`b/`-Pfade, ausreichend Kontext)? Stimmt der Basis-Commit mit dem im Benchmark erwarteten überein? Ein manueller Dry-Run mit `git apply --check` auf einem Sample-Patch würde die Ursache schnell isolieren. Erst danach lohnt sich eine vollständige Benchmark-Ausführung.
Live-View
KI-Bewertung
Generiert 2026-05-11 19:03 · claude-sonnet-4-6Gesamteindruck
Das Modell `mlx-community/Qwen3-Coder-Next` zeigt solide Grundfähigkeiten bei einfachen Aufgaben, erreicht jedoch nur etwa die Hälfte des Referenz-Durchsatzes und scheitert beim zentralen Code-Repair-Benchmark vollständig an technischen Formatierungsproblemen. Eine belastbare Aussage zur eigentlichen Coding-Kompetenz ist derzeit nicht möglich.
Stärken
- Perfektes Instruction-Following bei einfachen, eng definierten Prompts (Sanity, Cold-Start)
- Konsistente Formatdisziplin ohne unerwünschte Verbose-Ausgaben
- Keine inhaltlichen Fehler oder Halluzinationen in den auswertbaren Benchmarks
Schwächen
- Throughput bei nur ~46 % des Referenzwerts, mit abgeschnittenen Antworten bei langen Outputs
- SWE-bench vollständig wertlos durch 100 % `patch_apply_failed` — Kernkompetenz als Coding-Modell unbewertet
- Gelegentliche Emojis in Antworten, die in professionellen Einsatzszenarien stören können
Empfehlung
Vor jeder weiteren Evaluation den Patch-Adapter debuggen (`git apply --check` auf einem Sample-Patch), um das SWE-bench-Ergebnis überhaupt verwertbar zu machen — erst danach ist eine sinnvolle Aussage zur Eignung als Coding-Assistent möglich.
Stärken & Schwächen
Auf Basis der Pass-Raten dieses RunsStärken
Keine Sub-Benchmarks im "good"-Bereich.
Schwächen
Keine Sub-Benchmarks im "poor"-Bereich.
Telemetrie
Snapshots
{
"name": "SWE-Bench-Quick",
"provider_id": null,
"model_id": null,
"benchmarks": [
{
"adapter_key": "baseline",
"sub_benchmarks": [
"cold_start",
"throughput",
"sanity"
],
"threshold_override": null
},
{
"adapter_key": "swe_bench",
"sub_benchmarks": [
"swe_bench_lite"
],
"threshold_override": null,
"params": {
"swe_bench_preset": "lite_smoke"
}
}
],
"tags": [],
"notes": null,
"model": {
"base_name": "mlx-community/Qwen3-Coder-Next",
"quantization": "4bit",
"format": "other",
"source_url": null,
"build_notes": null,
"checksum": null
}
}
{
"name": "ExoBender",
"type": "exo",
"endpoint_url": "http://100.64.0.2:52415",
"api_key_env_var": null,
"sampling_params": [],
"provider_specific": [],
"telemetry_sample_interval_ms": 1000
}
[
{
"name": "kim",
"hostname": "100.64.0.4",
"gpu_description": "RTX 5080 16GB",
"cpu": "Ryzen 9800 X3D",
"ram": "64GB DDR5",
"storage": "1TB+4TB SSD",
"network": null,
"notes": null
}
]
{
"php_version": "8.4.21",
"os": "Linux",
"os_release": "6.8.0-111-generic",
"symfony_version": "7.4.10",
"provider_version_hint": null,
"recorded_at": "2026-05-11T18:34:03+02:00"
}