Run #67
Wie schnell antwortet das Modell auf den ersten Token-Stream nach Aufruf?
KI-Bewertung anzeigen
Zusammenfassung
Der Cold-Start-TTFT-Benchmark wurde mit einer Pass-Rate von 100 % bestanden. Das Modell lieferte beim ersten Stream-Token korrekt und fehlerfrei eine Antwort.
Stärken
- Vollständige Fehlerfreiheit: keine Errors, keine Failures
- Korrekte Instruktionsbefolgung beim minimalen Prompt ("Antworte nur mit OK" → "OK")
Schwächen
- Stichprobengröße von n=1 erlaubt keine statistisch belastbare Aussage zur TTFT-Stabilität
- Kein tatsächlicher Latenzwert (Millisekunden) in den Metriken dokumentiert, nur binäres Pass/Fail
Auffälligkeiten
Keine Muster in Failures erkennbar, da ausschließlich ein Success vorliegt. Der Test deckt lediglich den einfachsten möglichen Fall ab (einsilbige Antwort auf minimalen Prompt), was komplexere Cold-Start-Szenarien mit längeren Prompts oder Token-intensiven Antworten unberücksichtigt lässt.
Empfehlung
Den Benchmark um mindestens 5–10 Wiederholungen mit variierenden Prompt-Längen und -Komplexitäten erweitern sowie tatsächliche TTFT-Messwerte in Millisekunden erfassen, um Ausreißer und Jitter im Cold-Start-Verhalten des Modells `mlx-community/Qwen3-Coder-Next` zuverlässig beurteilen zu können.
Liefert der Endpoint überhaupt korrekte Antworten auf einfachste Fragen?
KI-Bewertung anzeigen
Zusammenfassung
Der Sanity-Benchmark wurde mit einer Pass-Rate von 100 % (10/10) fehlerfrei bestanden. Das Modell liefert auf triviale Fragen präzise, formatgerechte Antworten ohne jegliche Abweichungen.
Stärken
- Perfekte Befolgung von Formatvorgaben (nur Zahl, nur ein Wort, Großbuchstaben)
- Keinerlei Halluzinationen oder inhaltliche Fehler bei einfachen Faktenfragen
- Keine Latenz- oder Verbindungsfehler (0 Errors)
Schwächen
- Keine Schwächen im Rahmen dieses Benchmarks erkennbar
Auffälligkeiten
Keine Muster in Failures feststellbar, da ausnahmslos alle Antworten korrekt waren. Die Antworten sind durchgehend minimal gehalten, was auf gute Instruction-Following-Fähigkeiten hindeutet. Es gibt keine Tendenz zu unerwünschten Zusatztexten oder Erklärungen.
Empfehlung
Der Sanity-Check ist unauffällig und bestätigt die grundlegende Funktionsfähigkeit des Endpoints. Da dieser Sub-Benchmark nur die absolute Mindestanforderung prüft, sollte als nächster Schritt ein anspruchsvollerer Benchmark (z. B. Reasoning, Code-Generierung oder mehrsprachige Prompts) ausgeführt werden, um die Leistungsgrenzen des Modells zu identifizieren.
Wie viele Tokens pro Sekunde liefert das Modell unter realistischer Last?
KI-Bewertung anzeigen
Zusammenfassung
Der Throughput-Benchmark wurde mit einer Pass-Rate von 100 % (6/6) ohne Fehler abgeschlossen. Der erzielte Score von ca. 0,50 Tokens/sec-Normwert liegt im mittleren Bereich und gibt Anlass zur weiteren Betrachtung der absoluten Geschwindigkeit.
Stärken
- Vollständige Fehlerfreiheit: keine Errors, keine Failures bei allen sechs Prompts
- Korrekte und inhaltlich solide Antworten über alle Schwierigkeitsstufen hinweg (kurz, mittel, lang)
- Konsistente Antwortqualität unabhängig vom Prompt-Typ (Faktenfrage, Erklärung, technischer Vergleich)
Schwächen
- Score von 0,504 deutet auf moderate Inferenzgeschwindigkeit hin; das Modell schöpft den möglichen Durchsatz offenbar nicht voll aus
- Der lange Prompt (Quicksort-Pseudocode) zeigt eine abgeschnittene Antwort, was auf ein Truncation-Problem beim Streaming hinweisen könnte
Auffälligkeiten
Die Quicksort-Antwort endet mitten im Satz („– hier verwende ich die …") ohne abschließende Partition-Implementierung. Dies ist das einzige erkennbare Muster: bei längerem Output scheint der Stream vorzeitig zu enden, was entweder auf ein Token-Limit oder einen Streaming-Buffer-Fehler hindeutet. Kurze Prompts liefern vollständige Antworten ohne Auffälligkeiten.
Empfehlung
Den maximalen Output-Token-Grenzwert für lange Prompts erhöhen und prüfen, ob das Streaming-Buffer-Handling bei Antworten über einer bestimmten Länge korrekt konfiguriert ist. Anschließend den Throughput-Sub-Benchmark mit dem langen Prompt erneut ausführen, um festzustellen, ob Truncation die gemessenen Tokens/sec-Werte systematisch verzerrt.
Kann das Modell mehrstufig rechnen und Zwischenergebnisse halten?
KI-Bewertung anzeigen
Zusammenfassung
Das Modell `mlx-community/Qwen3-Coder-Next` erreicht auf GSM8K eine Pass-Rate von 87,6 % bei 2638 bewerteten Aufgaben und zeigt damit solide, aber nicht fehlerfreie Leistung bei mehrstufigen Grundschul-Rechenaufgaben.
Stärken
- Korrekte Lösungen bei einfachen bis mittelkomplexen mehrstufigen Aufgaben (Prozentrechnung, Einheitenumrechnung, lineare Gleichungen)
- Strukturierte Schritt-für-Schritt-Darstellung mit klaren Zwischenergebnissen
- Keine Fehler (0 Errors), das Modell gibt stets eine Antwort
Schwächen
- Fehler bei Aufgaben mit rückwärts gerichteter Logik (Reverse-Engineering von Startwerten, z. B. Staubsauger-Aufgabe)
- Fehler bei Ambiguität in Prozentangaben: Das Modell interpretiert „Zeitverbesserung durch 10 % mehr Geschwindigkeit" als inverse Beziehung statt direkter Reduktion
- Fehler bei off-by-one-Problemen in Jahresberechnungen (Gene-Quilt-Aufgabe: 12 statt 11 Jahre)
- Teilweise abgeschnittene Antworten (Response endet mitten im Satz/Rechnung), was auf Token-Limit-Probleme hindeuten kann
Auffälligkeiten
Wiederkehrendes Muster: Das Modell rechnet korrekt, zieht aber falsche Schlüsse am Ende — insbesondere bei Aufgaben, die implizite Konventionen voraussetzen (z. B. „Wert steigt um X %" bezogen auf Kaufpreis vs. Reparaturkosten). Zudem treten Abbrüche in den Responses auf, was auf ein zu niedrig gesetztes `max_tokens`-Limit hindeutet.
Empfehlung
`max_new_tokens` erhöhen, um abgeschnittene Antworten zu vermeiden, und anschließend den Sub-Benchmark für Aufgaben mit Prozentrechnung und Rückwärtslogik gezielt re-evaluieren, um zu prüfen, ob die Fehlerrate dort überproportional hoch ist.
KI-Bewertung anzeigen
Zusammenfassung
Das Modell erreicht eine Pass-Rate von 0 % auf dem HumanEval-Benchmark (0 von 164 Aufgaben bestanden). Kein einziger Testfall wurde erfolgreich abgeschlossen.
Stärken
- Das Modell produziert keine Laufzeitfehler (0 Errors), die Ausgaben sind syntaktisch verarbeitbar.
- Die generierten Erklärungen zeigen korrektes konzeptionelles Verständnis der Aufgaben (z. B. Sortier-Optimierung, Balancenzählung).
Schwächen
- Das Modell gibt ausnahmslos unvollständigen Code zurück: Es beginnt einen Markdown-Codeblock mit ` ```python ` und bricht dann ab, bevor die eigentliche Implementierung folgt.
- Kein einziger funktionsfähiger Funktionskörper wird generiert, weshalb alle Doctests fehlschlagen.
Auffälligkeiten
Es gibt ein einheitliches, deterministisches Fehlermuster: Jede Antwort besteht aus erklärendem Prosatext gefolgt von einem eingeleiteten, aber leeren oder abgebrochenen Python-Codeblock. Das Stop-Sequenz-Kriterium (`\ndef`, `\nclass` etc.) greift vermutlich zu früh und schneidet die eigentliche Funktionsdefinition ab. Da `do_sample=false` gesetzt ist, tritt dieser Fehler reproduzierbar bei allen 164 Aufgaben auf. Das Problem liegt nicht in der Modellqualität, sondern in der Konfiguration der Stop-Sequenzen.
Empfehlung
Die Stop-Sequenzen im Harness-Adapter anpassen: `\ndef` sollte nicht als Stoppbedingung gelten, da Lösungen häufig mit einer `def`-Zeile beginnen oder Helper-Funktionen enthalten. Alternativ das Prompt-Format auf Completion-Stil (ohne Chat-Wrapper) umstellen, sodass das Modell direkt in den Funktionskörper generiert, ohne einen Markdown-Codeblock einzuleiten.
Folgt das Modell strikten Anweisungen ohne Eigeninterpretation?
KI-Bewertung anzeigen
Zusammenfassung
Das Modell Qwen3-Coder-Next erreicht auf dem IFEval-Benchmark eine Pass-Rate von ca. 80,4 % (435 von 541 Fällen), was ein solides, aber nicht überragendes Ergebnis bei strikter Instruktionsbefolgung darstellt. Keine Fehler (Errors) traten auf, alle Misserfolge sind inhaltliche Verstöße gegen Formatvorgaben.
Stärken
- Formatanweisungen mit Abschnittstiteln, doppelten Anführungszeichen als Wrapper oder doppelten spitzen Klammern werden zuverlässig eingehalten.
- Verbotene Wörter (z. B. „can", „ride") und Mindestanzahlen bestimmter Begriffe werden in vielen Fällen korrekt umgesetzt.
- Mehrsprachige Anweisungen (Vietnamesisch) werden beachtet, sofern keine zusätzlichen Zeichenbeschränkungen kollidieren.
Schwächen
- Strenge Zeichenbeschränkungen (z. B. „Buchstabe t höchstens einmal", „kein Buchstabe c") werden systematisch verletzt.
- Exakte Bullet-Anzahl wird nicht eingehalten: Das Modell produziert mehr Punkte als verlangt (6 statt 3 Bullet Points).
- Trennzeichen-Anforderungen (sechs Sternchen, exakt zwei Antworten) werden teilweise ignoriert oder falsch implementiert.
- Längenvorgaben (mind. 800 Wörter, Antwort in doppelten Anführungszeichen) werden manchmal nicht vollständig erfüllt, da der Output vorzeitig abgeschnitten wirkt.
Auffälligkeiten
Ein klares Muster zeigt sich bei Anweisungen, die harte Zeichenebene-Constraints kombinieren (z. B. Buchstabenhäufigkeit + Großschreibung + Wortzahl). Das Modell priorisiert Lesbarkeit und Inhalt über strikte Zeichenzählung. Auch das exakte Wiederholen einer Anfrage vor der Antwort gelingt nicht fehlerfrei.
Empfehlung
Gezieltes Fine-Tuning oder Prompt-Engineering auf Zeichenebene-Constraints (Buchstabenhäufigkeit, exakte Listenlänge, Trennzeichen) durchführen; alternativ den IFEval-Sub-Benchmark mit strengerem Constraint-Tracking erneut evaluieren und die Sampling-Temperatur auf 0 belassen, da Greedy Decoding hier bereits aktiv ist.
Live-View
KI-Bewertung
Generiert 2026-05-12 19:41 · claude-sonnet-4-6Gesamteindruck
Das Modell zeigt starke Grundfähigkeiten in Instruktionsbefolgung, Mathematik und einfachen Formataufgaben, versagt aber vollständig bei Python-Codegenerierung -- allerdings aufgrund eines Konfigurationsfehlers in den Stop-Sequenzen, nicht wegen mangelnder Modellqualität. Die Gesamtleistung ist solide für ein lokales MLX-Modell, weist jedoch spezifische, behebbare technische Probleme auf.
Stärken
- Perfekte Sanity- und Cold-Start-Ergebnisse (100 % Pass-Rate), zuverlässiger Betrieb ohne Errors
- Solide GSM8K-Leistung (87,6 %), strukturierte Schritt-für-Schritt-Rechenwege
- IFEval mit 80,4 % akzeptabel, besonders bei Abschnitts- und Sprachformatvorgaben
- Konsistente Antwortqualität über verschiedene Prompt-Schwierigkeiten hinweg
Schwächen
- HumanEval 0 % durch fehlerhafte Stop-Sequenz-Konfiguration -- Code wird nie vollständig generiert
- Truncation-Problem bei langen Antworten deutet auf zu niedrig gesetztes `max_tokens`-Limit
- Versagt systematisch bei Zeichenebene-Constraints (Buchstabenhäufigkeit, exakte Listenlängen)
- Fehler bei Rückwärtslogik und off-by-one-Problemen in Matheaufgaben
Empfehlung
Vor produktivem Einsatz unbedingt die Stop-Sequenzen im HumanEval-Harness korrigieren und `max_new_tokens` erhöhen, um Truncation zu beseitigen -- erst dann ist eine belastbare Gesamtbewertung möglich.
Stärken & Schwächen
Auf Basis der Pass-Raten dieses RunsStärken
- GSM8K — Grundschulmathe (87.6%)
- IFEval — Instruction Following (80.4%)
Schwächen
- humaneval (0%)
Telemetrie
Snapshots
{
"name": "LM-Eval ALL",
"provider_id": null,
"model_id": null,
"benchmarks": [
{
"adapter_key": "lm_eval_harness",
"sub_benchmarks": [
"gsm8k",
"humaneval",
"ifeval"
],
"threshold_override": null
}
],
"tags": [],
"notes": null,
"model": {
"base_name": "mlx-community/Qwen3-Coder-Next",
"quantization": "4bit",
"format": "other",
"source_url": null,
"build_notes": null,
"checksum": null
}
}
{
"name": "ExoBender",
"type": "exo",
"endpoint_url": "http://100.64.0.2:52415",
"api_key_env_var": null,
"sampling_params": [],
"provider_specific": [],
"telemetry_sample_interval_ms": 1000
}
[
{
"name": "kim",
"hostname": "100.64.0.4",
"gpu_description": "RTX 5080 16GB",
"cpu": "Ryzen 9800 X3D",
"ram": "64GB DDR5",
"storage": "1TB+4TB SSD",
"network": null,
"notes": null
}
]
{
"php_version": "8.4.21",
"os": "Linux",
"os_release": "6.8.0-111-generic",
"symfony_version": "7.4.10",
"provider_version_hint": null,
"recorded_at": "2026-05-12T16:56:45+02:00"
}