Run #63
Wie schnell antwortet das Modell auf den ersten Token-Stream nach Aufruf?
KI-Bewertung anzeigen
Zusammenfassung
Der Cold-Start-TTFT-Benchmark wurde mit einer Pass-Rate von 100 % bestanden. Das Modell antwortete korrekt und ohne Fehler auf den einzigen Testfall.
Stärken
- Vollständige Fehlerfreiheit: keine Errors, keine Failures
- Korrekte und präzise Antwort auf die Instruktion ("OK" ohne Zusätze)
Schwächen
- Stichprobengröße von nur einem Prompt erlaubt keine belastbare statistische Aussage
- Der Test misst lediglich Korrektheit, nicht die tatsächliche TTFT-Latenz in Millisekunden
Auffälligkeiten
Keine Muster erkennbar, da nur ein einziger Testfall vorliegt. Die Beschreibung des Benchmarks zielt auf Latenz (Time-To-First-Token), jedoch enthält die Auswertung keine konkreten Zeitwerte — nur ein binäres Pass/Fail-Ergebnis.
Empfehlung
Den Benchmark um quantitative Latenz-Metriken (TTFT in ms, Perzentile p50/p95) sowie eine größere Anzahl von Prompts unterschiedlicher Länge und Komplexität erweitern, um belastbare Aussagen über das tatsächliche Cold-Start-Verhalten des Modells treffen zu können.
Liefert der Endpoint überhaupt korrekte Antworten auf einfachste Fragen?
KI-Bewertung anzeigen
Zusammenfassung
Der Sanity-Benchmark wurde mit einer Pass-Rate von 100 % (10/10) fehlerfrei bestanden. Das Modell liefert auf triviale Fragen präzise, formatgerechte Antworten ohne jegliche Abweichungen.
Stärken
- Perfekte Instruction-Following-Fähigkeit: Alle Formatvorgaben (einzelnes Wort, nur Zahl) wurden exakt eingehalten
- Null Fehler und Null Ausfälle — der Endpoint ist stabil und grundsätzlich funktionsfähig
Schwächen
- Keine Schwächen auf diesem Niveau erkennbar; der Test ist jedoch zu trivial für differenzierte Aussagen
- Kein Belastungstest für längere Kontexte, Ambiguität oder Mehrsprachigkeit
Auffälligkeiten
Keine negativen Muster erkennbar. Alle Antworten sind minimal und präzise — das Modell tendiert nicht zu unerwünschten Zusätzen oder Erklärungen, was positiv zu werten ist.
Empfehlung
Den Sanity-Benchmark als bestanden abhaken und die Evaluierung auf anspruchsvollere Sub-Benchmarks konzentrieren, insbesondere auf Reasoning, Code-Generierung und Long-Context-Aufgaben, da der aktuelle Test keine Aussagekraft über die tatsächliche Leistungsfähigkeit des Modells bei komplexen Aufgaben bietet.
Wie viele Tokens pro Sekunde liefert das Modell unter realistischer Last?
KI-Bewertung anzeigen
Zusammenfassung
Der Throughput-Benchmark wurde mit einer Pass-Rate von 100 % (6/6) fehlerfrei abgeschlossen. Der erzielte Score von ~0,43 spiegelt die gemessene Token-Geschwindigkeit wider, die als moderater Wert einzustufen ist.
Stärken
- Keine Fehler oder Failures in keiner der sechs Testinstanzen
- Korrekte und qualitativ angemessene Antworten über alle Prompt-Längen hinweg (kurz, mittel, lang)
- Robustheit über verschiedene Domänen: Mathematik, Geografie, Biologie, Informatik
Schwächen
- Score von 0,432 deutet auf eine unterdurchschnittliche Token-Geschwindigkeit hin; ob dieser Wert ausreichend ist, hängt vom Ziel-SLA ab
- Responses bei mittleren und langen Prompts (Quicksort, REST/GraphQL) wurden teilweise abgeschnitten, was auf Token-Limits oder Streaming-Abbrüche hinweist
Auffälligkeiten
Bei zwei längeren Antworten (Quicksort-Pseudocode, REST-vs-GraphQL) endet der Text mitten im Satz bzw. im Code-Block. Dies ist kein inhaltlicher Fehler im Sinne des Benchmarks, aber ein strukturelles Muster: Bei langen Outputs scheint die Antwort vorzeitig zu terminieren. Das könnte auf ein zu niedrig gesetztes `max_tokens`-Limit im Benchmark-Setup zurückzuführen sein.
Empfehlung
Das vorzeitige Abschneiden langer Antworten sollte untersucht werden: `max_tokens` im Benchmark-Adapter prüfen und ggf. erhöhen. Zudem sollte der Score von 0,432 gegen einen definierten Throughput-Schwellenwert (z. B. Tokens/sec-Zielwert) verglichen werden, um zu beurteilen, ob ein Wechsel auf eine leichtere Quantisierungsstufe (z. B. 4-Bit statt 8-Bit) sinnvoll ist.
Kann das Modell mehrstufig rechnen und Zwischenergebnisse halten?
KI-Bewertung anzeigen
Zusammenfassung
Der Benchmark liefert keinerlei verwertbare Ergebnisse: Es wurden null Aufgaben ausgeführt, weder Erfolge noch Fehler wurden registriert, und eine Pass-Rate konnte nicht berechnet werden.
Stärken
- Keine Abstürze oder Laufzeitfehler (errors = 0), das System ist stabil gestartet
- Die Benchmark-Konfiguration selbst scheint korrekt definiert
Schwächen
- Vollständig leere Ergebnismenge: kein einziger Sample wurde verarbeitet
- Keine auswertbare Metrik vorhanden (pass_rate, score jeweils null)
- Modellleistung auf GSM8K bleibt vollständig unbekannt
Auffälligkeiten
Das auffälligste Muster ist das vollständige Ausbleiben jeglicher Ausführung. Es wurden weder Successes noch Failures noch Errors gesammelt. Dies deutet nicht auf ein Modellproblem hin, sondern auf ein infrastrukturelles Problem: Der Inference-Adapter hat offenbar keine Prompts an das Modell weitergeleitet oder die Ergebnisse wurden nicht korrekt zurückgeschrieben. Das Modell `mlx-community/Qwen3-Coder-Next` selbst konnte unter diesen Umständen nicht bewertet werden.
Empfehlung
Vor jeder inhaltlichen Modellbewertung muss die Pipeline-Integration geprüft werden: Adapter-Konfiguration (`lm_eval_harness`) auf korrekte Dataset-Anbindung und Modell-Endpoint-Verbindung verifizieren, einen manuellen Einzellauf mit einem GSM8K-Sample durchführen und sicherstellen, dass Ergebnisse korrekt in die Ergebnisstruktur zurückgeschrieben werden. Erst danach ist eine Neubewertung sinnvoll.
KI-Bewertung anzeigen
Zusammenfassung
Der Benchmark liefert keinerlei verwertbare Ergebnisse: Alle Metriken sind null oder nicht definiert, und es wurden keine Samples verarbeitet. Das Modell wurde faktisch nicht evaluiert.
Stärken
- Keine Fehler bei der Ausführung des Adapters (errors: 0)
- Keine fehlgeschlagenen Samples im technischen Sinne
Schwächen
- Pass-Rate ist `null` — kein einziges Sample wurde bewertet
- Score ist undefiniert, sodass kein Vergleich mit anderen Modellen möglich ist
- Weder Successes noch Failures vorhanden, was auf ein grundlegendes Integrationsproblem hindeutet
Auffälligkeiten
Die Kombination aus `passed: 0`, `failed: 0` und `errors: 0` bei gleichzeitig leeren Sample-Listen deutet nicht auf schlechte Modellleistung hin, sondern auf ein Konfigurationsproblem im Evaluierungspipeline. Möglicherweise wurde der Adapter nie gestartet, das Modell nicht korrekt geladen, oder die Ausgabe wurde nicht an den Harness zurückgegeben. Das Modell `mlx-community/Qwen3-Coder-Next` könnte unter MLX nicht korrekt initialisiert worden sein.
Empfehlung
Vor einer inhaltlichen Bewertung muss die technische Ursache behoben werden: Adapter-Logs prüfen, ob das Modell erfolgreich geladen wurde, und sicherstellen, dass der `lm_eval_harness`-Adapter die Generierungsanfragen korrekt weiterleitet. Ein minimaler Smoke-Test mit 5 Samples empfiehlt sich, bevor der vollständige 164-Aufgaben-Lauf wiederholt wird.
Folgt das Modell strikten Anweisungen ohne Eigeninterpretation?
KI-Bewertung anzeigen
Zusammenfassung
Der Sub-Benchmark IFEval liefert keinerlei verwertbare Ergebnisse, da weder Samples ausgeführt noch Metriken berechnet wurden. Die Pass-Rate ist `null`, alle Zähler stehen auf 0.
Stärken
- Keine Fehler (Errors = 0), d.h. der Adapter ist technisch nicht abgestürzt
- Die Benchmark-Konfiguration selbst scheint korrekt definiert zu sein
Schwächen
- Kein einziges Sample wurde verarbeitet — Successes, Failures und Errors sind alle leer
- Es existiert kein Score und keine Pass-Rate, womit die Aussagekraft vollständig fehlt
- Das Modell `mlx-community/Qwen3-Coder-Next` wurde für diesen Sub-Benchmark de facto nicht getestet
Auffälligkeiten
Das auffälligste Muster ist das vollständige Fehlen jeglicher Samples. Dies deutet nicht auf ein Modell-Verhalten hin, sondern auf ein infrastrukturelles oder konfiguratives Problem: Möglicherweise wurde der Dataset-Split nicht geladen, der Adapter hat die Aufgaben nicht an das Modell weitergeleitet, oder die Benchmark-Pipeline wurde vorzeitig abgebrochen. Da Errors = 0, wurde kein Laufzeitfehler protokolliert, was auf ein stilles Scheitern (silent failure) hinweist.
Empfehlung
Vor jeder weiteren Auswertung sollte geprüft werden, ob der IFEval-Datensatz korrekt heruntergeladen und vom `lm_eval_harness`-Adapter als Task registriert wurde. Konkret: Den Task-Namen `ifeval` im Harness-Log verifizieren, den Dataset-Cache prüfen und einen Testlauf mit `--limit 5` durchführen, um sicherzustellen, dass überhaupt Samples übergeben werden. Erst danach ist eine inhaltliche Bewertung des Instruction-Following-Verhaltens möglich.
KI-Bewertung anzeigen
Zusammenfassung
Der MMLU-Sub-Benchmark wurde vollständig ohne auswertbare Ergebnisse abgeschlossen: Es liegen null Durchläufe, null Fehler und kein Score vor. Das Modell wurde faktisch nicht getestet.
Stärken
- Keine technischen Laufzeitfehler (Errors = 0), die Pipeline selbst ist stabil
- Kein offensichtlicher Absturz oder kritischer Integrationsfehler
Schwächen
- Pass-Rate ist `null`, kein einziges Sample wurde verarbeitet
- Kein Score vorhanden, damit ist das Modell für diesen Benchmark vollständig unbewertet
- Successes, Failures und Errors sind alle leer — die Evaluation hat schlicht nie begonnen oder keine Daten geliefert
Auffälligkeiten
Das Auffälligste ist das vollständige Fehlen jeglicher Samples. Dies deutet nicht auf ein Modellproblem hin, sondern auf ein Konfigurations- oder Integrationsproblem: Der Adapter `lm_eval_harness` hat entweder keine Prompts an das Modell `mlx-community/Qwen3-Coder-Next` übergeben, oder die Ergebnisse wurden nicht korrekt zurückgeliefert und aggregiert. Möglicherweise ist der MMLU-Datensatz nicht korrekt geladen worden oder es gibt einen stillen Abbruch vor der ersten Inference.
Empfehlung
Vor jeder weiteren Auswertung sollte die Datenpipeline geprüft werden: Datensatz-Download verifizieren, Adapter-Konfiguration für `lm_eval_harness` mit MMLU explizit testen und einen minimalen Einzellauf mit einem einzigen Sample durchführen, um den Datenfluss von Prompt bis Score-Aggregation zu validieren.
Live-View
KI-Bewertung
Generiert 2026-05-12 02:18 · claude-sonnet-4-6Gesamteindruck
Das Modell `mlx-community/Qwen3-Coder-Next` besteht alle technisch funktionierenden Benchmarks (Cold-Start, Throughput, Sanity) mit 100 % Pass-Rate, jedoch konnten vier der sieben Sub-Benchmarks (MMLU, GSM8K, HumanEval, IFEval) aufgrund von Integrationsproblemen in der Evaluierungspipeline überhaupt nicht ausgeführt werden. Eine belastbare Aussage zur tatsächlichen Modellqualität ist damit nicht möglich.
Stärken
- Stabiler Endpoint ohne Laufzeitfehler in allen gestarteten Benchmarks
- Exaktes Instruction-Following bei einfachen Formatsanforderungen (Sanity 10/10)
- Robuste Verarbeitung verschiedener Domänen und Prompt-Längen im Throughput-Test
Schwächen
- Vier kritische Benchmarks (MMLU, GSM8K, HumanEval, IFEval) liefern null auswertbare Ergebnisse -- stilles Scheitern der Pipeline
- Moderater Throughput-Score (0,43) mit vorzeitigem Abschneiden langer Antworten
- Keine Messung tatsächlicher Latenzwerte (TTFT in ms) trotz entsprechendem Benchmark-Label
Empfehlung
Vor jeder inhaltlichen Modellbewertung muss die `lm_eval_harness`-Integration mit einem `--limit 5`-Smoke-Test je fehlgeschlagenem Sub-Benchmark debuggt und die Dataset-Anbindung verifiziert werden.
Stärken & Schwächen
Auf Basis der Pass-Raten dieses RunsStärken
Keine Sub-Benchmarks im "good"-Bereich.
Schwächen
Keine Sub-Benchmarks im "poor"-Bereich.
Telemetrie
Snapshots
{
"name": "LM-Eval ALL",
"provider_id": null,
"model_id": null,
"benchmarks": [
{
"adapter_key": "lm_eval_harness",
"sub_benchmarks": [
"mmlu",
"gsm8k",
"humaneval",
"ifeval"
],
"threshold_override": null
}
],
"tags": [],
"notes": null,
"model": {
"base_name": "mlx-community/Qwen3-Coder-Next",
"quantization": "4bit",
"format": "other",
"source_url": null,
"build_notes": null,
"checksum": null
}
}
{
"name": "ExoBender",
"type": "exo",
"endpoint_url": "http://100.64.0.2:52415",
"api_key_env_var": null,
"sampling_params": [],
"provider_specific": [],
"telemetry_sample_interval_ms": 1000
}
[
{
"name": "kim",
"hostname": "100.64.0.4",
"gpu_description": "RTX 5080 16GB",
"cpu": "Ryzen 9800 X3D",
"ram": "64GB DDR5",
"storage": "1TB+4TB SSD",
"network": null,
"notes": null
}
]
{
"php_version": "8.4.21",
"os": "Linux",
"os_release": "6.8.0-111-generic",
"symfony_version": "7.4.10",
"provider_version_hint": null,
"recorded_at": "2026-05-11T23:05:55+02:00"
}