Run #64
Wie schnell antwortet das Modell auf den ersten Token-Stream nach Aufruf?
KI-Bewertung anzeigen
Zusammenfassung
Der Cold-Start-TTFT-Benchmark wurde mit einer Pass-Rate von 100 % bestanden. Das Modell lieferte beim einzigen Testfall sofort die korrekte Antwort ohne Fehler.
Stärken
- Vollständige Fehlerfreiheit: keine Errors, keine Failures
- Korrekte und minimale Antwort auf einen einfachen Prompt
Schwächen
- Stichprobengröße von n=1 erlaubt keine statistisch belastbare Aussage
- Kein tatsächlicher TTFT-Messwert (in Millisekunden) in den Metriken erfasst
Auffälligkeiten
Keine Muster erkennbar, da nur ein einziger Testfall vorliegt. Der Benchmark misst laut Beschreibung die Latenz bis zum ersten Stream-Token, jedoch enthält die Ausgabe keinen numerischen Zeitwert — es wurde lediglich die Korrektheit der Antwort bewertet. Dies widerspricht dem eigentlichen Ziel des Sub-Benchmarks.
Empfehlung
Den Benchmark erweitern: Erstens sollte die tatsächliche TTFT-Dauer in Millisekunden als Metrik erfasst und ausgegeben werden, da ohne diesen Wert keine Aussage über die Latenz möglich ist. Zweitens sollte die Stichprobengröße auf mindestens 10–20 Anfragen erhöht werden, um Schwankungen im Cold-Start-Verhalten (z. B. durch Modell-Loading oder Cache-Effekte) sichtbar zu machen.
Liefert der Endpoint überhaupt korrekte Antworten auf einfachste Fragen?
KI-Bewertung anzeigen
Zusammenfassung
Das Modell besteht den Sanity-Benchmark mit einer perfekten Pass-Rate von 100 % (10/10). Alle trivialen Fragen wurden korrekt und im geforderten Format beantwortet.
Stärken
- Vollständige Instruction-Following-Kompetenz: Jede Formatvorgabe ("nur die Zahl", "ein einziges Wort") wurde exakt eingehalten.
- Keinerlei Fehler oder Abstürze, der Endpoint ist stabil und betriebsbereit.
Schwächen
- Keine Schwächen im Rahmen dieses Benchmarks identifizierbar.
- Der Benchmark ist trivial gehalten und lässt keine Rückschlüsse auf komplexere Fähigkeiten zu.
Auffälligkeiten
Keine negativen Muster erkennbar. Sämtliche Antworten sind minimal und präzise, ohne unerwünschte Zusatztexte. Auffällig positiv ist, dass das Modell auch bei Großschreibungsaufgaben keine Erklärungen oder Kommentare hinzufügt.
Empfehlung
Den Sanity-Benchmark als bestanden abhaken und die Testtiefe erhöhen: Als nächsten Schritt sollten anspruchsvollere Sub-Benchmarks evaluiert werden, etwa Reasoning, längere Kontextverarbeitung oder Codegenerierung, um belastbare Aussagen über die tatsächliche Modellqualität zu gewinnen.
Wie viele Tokens pro Sekunde liefert das Modell unter realistischer Last?
KI-Bewertung anzeigen
Zusammenfassung
Der Throughput-Benchmark wurde mit einer Pass-Rate von 100 % (6/6) ohne Fehler abgeschlossen. Der erzielte Score von 0,436 deutet jedoch auf eine moderate Token-Generierungsgeschwindigkeit hin, die je nach Referenzwert als mittelmäßig einzustufen ist.
Stärken
- Vollständige Fehlerfreiheit: Null Errors, Null Failures über alle sechs Prompts
- Korrekte und inhaltlich konsistente Antworten über alle Schwierigkeitsstufen (kurz, mittel, lang)
Schwächen
- Score von 0,436 signalisiert, dass die Tokens/sec-Rate unter einem höheren Referenzwert liegt — das Modell ist nicht besonders schnell
- Bei längeren Antworten (z. B. Quicksort-Pseudocode) wurde die Ausgabe mid-Response abgeschnitten, was auf ein Token-Limit oder Buffer-Problem hinweisen könnte
Auffälligkeiten
Die Quicksort-Antwort endet mitten im Code-Block (`FUNCTION` ohne Body), was auf ein Hard-Cutoff beim Streaming hinweist. Alle anderen Antworten sind vollständig. Dieses Muster tritt ausschließlich beim längsten und komplexesten Prompt auf — ein Hinweis auf ein Output-Token-Limit-Problem bei langen Generierungen unter Streaming-Last.
Empfehlung
Den maximalen Output-Token-Grenzwert für das Modell erhöhen oder prüfen, ob der Streaming-Buffer bei langen Antworten vorzeitig geschlossen wird. Zusätzlich sollte der Score-Referenzwert (Tokens/sec-Ziel) dokumentiert werden, um einzuschätzen, ob ein Quantisierungswechsel (z. B. von 4-bit auf 8-bit oder umgekehrt) die Durchsatzrate verbessern kann.
Kann das Modell echte Bugs in echten Codebasen fixen?
KI-Bewertung anzeigen
Zusammenfassung
Das Modell erzielt eine Pass-Rate von 0 % auf SWE-bench Lite: Kein einziger Patch führt zu grünen Tests. Die Fehlerquote dominiert das Ergebnis mit 8 Errors bei nur 10 ausgewerteten Samples.
Stärken
- Das Modell produziert syntaktisch erkennbare Diff-Formate und versucht, relevante Codestellen zu adressieren.
- Die inhaltliche Stoßrichtung der Patches (z.B. callable-Pfad-Handling in Django, leere Array-Behandlung in astropy) ist thematisch plausibel.
Schwächen
- 6 von 8 Errors sind `patch_apply_failed`: Die erzeugten Patches enthalten falsche Zeilennummern oder fiktive Hashes (z.B. `index 1234567..abcdefg`), die nicht auf den tatsächlichen Repo-Stand passen.
- 2 Errors sind Idle-Timeouts, was auf Inferenz-Instabilität oder Ressourcenprobleme hinweist.
- Keine einzige Aufgabe wird korrekt gelöst, auch nicht die beiden Failures, deren Patches zwar angewendet werden konnten, aber die Tests nicht bestehen.
Auffälligkeiten
Alle `patch_apply_failed`-Fehler deuten auf ein systematisches Problem: Das Modell halluziniert Commit-Hashes und Zeilennummern, anstatt echte Kontext-Zeilen aus dem Repository zu verwenden. Dies ist ein konsistentes Muster über verschiedene Repos (astropy, Django) hinweg.
Empfehlung
Den Prompt-Aufbau überarbeiten: Das Modell muss den tatsächlichen Dateiinhalt als Kontext erhalten, damit es valide unified Diffs mit korrekten Zeilennummern erzeugt. Alternativ sollte ein Tool-Calling-Ansatz (z.B. direkte Dateibearbeitung statt Diff-Generierung) evaluiert werden, um die `patch_apply_failed`-Rate zu senken.
Live-View
KI-Bewertung
Generiert 2026-05-12 02:19 · claude-sonnet-4-6Gesamteindruck
Das Modell zeigt in grundlegenden Betriebstests (Latenz, Durchsatz, Instruction-Following) solide bis sehr gute Ergebnisse, versagt jedoch vollständig beim komplexen Software-Engineering-Task SWE-bench Lite. Die Diskrepanz zwischen trivialen und anspruchsvollen Aufgaben ist erheblich.
Stärken
- Stabiler Endpoint: 100 % Pass-Rate in Cold-Start, Throughput und Sanity ohne einen einzigen Fehler
- Präzises Instruction-Following: Formatvorgaben werden konsistent und ohne Zusatztexte eingehalten
- Thematisch plausible Code-Patches werden generiert, syntaktische Diff-Struktur ist erkennbar
Schwächen
- SWE-bench Lite: 0 % Pass-Rate, systematisches Halluzinieren von Commit-Hashes und Zeilennummern macht Patches unanwendbar
- Moderate Token-Generierungsgeschwindigkeit (Score 0,436) mit Hard-Cutoff bei langen Antworten
- Idle-Timeouts deuten auf Inferenz-Instabilität unter Last hin
Empfehlung
Für autonome Issue-Reparatur ist das Modell derzeit nicht geeignet -- vor einem produktiven Einsatz als Coding-Agent muss der Prompt-Aufbau so überarbeitet werden, dass das Modell echten Dateiinhalt als Kontext erhält, anstatt Diffs aus dem Gedächtnis zu halluzinieren.
Stärken & Schwächen
Auf Basis der Pass-Raten dieses RunsStärken
Keine Sub-Benchmarks im "good"-Bereich.
Schwächen
- SWE-bench Lite — Issue-Repair (0%)
Telemetrie
Snapshots
{
"name": "SWE-Bench-Quick",
"provider_id": null,
"model_id": null,
"benchmarks": [
{
"adapter_key": "baseline",
"sub_benchmarks": [
"cold_start",
"throughput",
"sanity"
],
"threshold_override": null
},
{
"adapter_key": "swe_bench",
"sub_benchmarks": [
"swe_bench_lite"
],
"threshold_override": null,
"params": {
"swe_bench_preset": "lite_smoke"
}
}
],
"tags": [],
"notes": null,
"model": {
"base_name": "mlx-community/Qwen3-Coder-Next",
"quantization": "4bit",
"format": "other",
"source_url": null,
"build_notes": null,
"checksum": null
}
}
{
"name": "ExoBender",
"type": "exo",
"endpoint_url": "http://100.64.0.2:52415",
"api_key_env_var": null,
"sampling_params": [],
"provider_specific": [],
"telemetry_sample_interval_ms": 1000
}
[
{
"name": "kim",
"hostname": "100.64.0.4",
"gpu_description": "RTX 5080 16GB",
"cpu": "Ryzen 9800 X3D",
"ram": "64GB DDR5",
"storage": "1TB+4TB SSD",
"network": null,
"notes": null
}
]
{
"php_version": "8.4.21",
"os": "Linux",
"os_release": "6.8.0-111-generic",
"symfony_version": "7.4.10",
"provider_version_hint": null,
"recorded_at": "2026-05-12T02:01:51+02:00"
}