Run #63

Sanity — Substring-Checks

Zusammenfassung

Der Cold-Start-TTFT-Benchmark wurde mit einer Pass-Rate von 100 % bestanden. Das Modell antwortete korrekt und ohne Fehler auf den einzigen Testfall.

Stärken

Vollständige Fehlerfreiheit: keine Errors, keine Failures
Korrekte und präzise Antwort auf die Instruktion ("OK" ohne Zusätze)

Schwächen

Stichprobengröße von nur einem Prompt erlaubt keine belastbare statistische Aussage
Der Test misst lediglich Korrektheit, nicht die tatsächliche TTFT-Latenz in Millisekunden

Auffälligkeiten

Keine Muster erkennbar, da nur ein einziger Testfall vorliegt. Die Beschreibung des Benchmarks zielt auf Latenz (Time-To-First-Token), jedoch enthält die Auswertung keine konkreten Zeitwerte — nur ein binäres Pass/Fail-Ergebnis.

Empfehlung

Den Benchmark um quantitative Latenz-Metriken (TTFT in ms, Perzentile p50/p95) sowie eine größere Anzahl von Prompts unterschiedlicher Länge und Komplexität erweitern, um belastbare Aussagen über das tatsächliche Cold-Start-Verhalten des Modells treffen zu können.

Baseline — Streaming-Performance & Sanity · v1.0.0

Liefert der Endpoint überhaupt korrekte Antworten auf einfachste Fragen?

100%

10 ok · 0 failed

Baseline — Streaming-Performance & Sanity · v1.0.0

Zusammenfassung

Der Sanity-Benchmark wurde mit einer Pass-Rate von 100 % (10/10) fehlerfrei bestanden. Das Modell liefert auf triviale Fragen präzise, formatgerechte Antworten ohne jegliche Abweichungen.

Stärken

Perfekte Instruction-Following-Fähigkeit: Alle Formatvorgaben (einzelnes Wort, nur Zahl) wurden exakt eingehalten
Null Fehler und Null Ausfälle — der Endpoint ist stabil und grundsätzlich funktionsfähig

Schwächen

Keine Schwächen auf diesem Niveau erkennbar; der Test ist jedoch zu trivial für differenzierte Aussagen
Kein Belastungstest für längere Kontexte, Ambiguität oder Mehrsprachigkeit

Auffälligkeiten

Keine negativen Muster erkennbar. Alle Antworten sind minimal und präzise — das Modell tendiert nicht zu unerwünschten Zusätzen oder Erklärungen, was positiv zu werten ist.

Empfehlung

Den Sanity-Benchmark als bestanden abhaken und die Evaluierung auf anspruchsvollere Sub-Benchmarks konzentrieren, insbesondere auf Reasoning, Code-Generierung und Long-Context-Aufgaben, da der aktuelle Test keine Aussagekraft über die tatsächliche Leistungsfähigkeit des Modells bei komplexen Aufgaben bietet.

Throughput — Tokens/sec

Wie viele Tokens pro Sekunde liefert das Modell unter realistischer Last?

52.9t/s

Tokens/sec (p50) · 100% pass

6 ok · 0 failed

lm-evaluation-harness · v1.0.0+humaneval-unsafe-flag

Zusammenfassung

Der Throughput-Benchmark wurde mit einer Pass-Rate von 100 % (6/6) fehlerfrei abgeschlossen. Der erzielte Score von ~0,43 spiegelt die gemessene Token-Geschwindigkeit wider, die als moderater Wert einzustufen ist.

Stärken

Keine Fehler oder Failures in keiner der sechs Testinstanzen
Korrekte und qualitativ angemessene Antworten über alle Prompt-Längen hinweg (kurz, mittel, lang)
Robustheit über verschiedene Domänen: Mathematik, Geografie, Biologie, Informatik

Schwächen

Score von 0,432 deutet auf eine unterdurchschnittliche Token-Geschwindigkeit hin; ob dieser Wert ausreichend ist, hängt vom Ziel-SLA ab
Responses bei mittleren und langen Prompts (Quicksort, REST/GraphQL) wurden teilweise abgeschnitten, was auf Token-Limits oder Streaming-Abbrüche hinweist

Auffälligkeiten

Bei zwei längeren Antworten (Quicksort-Pseudocode, REST-vs-GraphQL) endet der Text mitten im Satz bzw. im Code-Block. Dies ist kein inhaltlicher Fehler im Sinne des Benchmarks, aber ein strukturelles Muster: Bei langen Outputs scheint die Antwort vorzeitig zu terminieren. Das könnte auf ein zu niedrig gesetztes `max_tokens`-Limit im Benchmark-Setup zurückzuführen sein.

Empfehlung

Das vorzeitige Abschneiden langer Antworten sollte untersucht werden: `max_tokens` im Benchmark-Adapter prüfen und ggf. erhöhen. Zudem sollte der Score von 0,432 gegen einen definierten Throughput-Schwellenwert (z. B. Tokens/sec-Zielwert) verglichen werden, um zu beurteilen, ob ein Wechsel auf eine leichtere Quantisierungsstufe (z. B. 4-Bit statt 8-Bit) sinnvoll ist.

GSM8K — Grundschulmathe

Kann das Modell mehrstufig rechnen und Zwischenergebnisse halten?

lm-evaluation-harness · v1.0.0+humaneval-unsafe-flag

Zusammenfassung

Der Benchmark liefert keinerlei verwertbare Ergebnisse: Es wurden null Aufgaben ausgeführt, weder Erfolge noch Fehler wurden registriert, und eine Pass-Rate konnte nicht berechnet werden.

Stärken

Keine Abstürze oder Laufzeitfehler (errors = 0), das System ist stabil gestartet
Die Benchmark-Konfiguration selbst scheint korrekt definiert

Schwächen

Vollständig leere Ergebnismenge: kein einziger Sample wurde verarbeitet
Keine auswertbare Metrik vorhanden (pass_rate, score jeweils null)
Modellleistung auf GSM8K bleibt vollständig unbekannt

Auffälligkeiten

Das auffälligste Muster ist das vollständige Ausbleiben jeglicher Ausführung. Es wurden weder Successes noch Failures noch Errors gesammelt. Dies deutet nicht auf ein Modellproblem hin, sondern auf ein infrastrukturelles Problem: Der Inference-Adapter hat offenbar keine Prompts an das Modell weitergeleitet oder die Ergebnisse wurden nicht korrekt zurückgeschrieben. Das Modell `mlx-community/Qwen3-Coder-Next` selbst konnte unter diesen Umständen nicht bewertet werden.

Empfehlung

Vor jeder inhaltlichen Modellbewertung muss die Pipeline-Integration geprüft werden: Adapter-Konfiguration (`lm_eval_harness`) auf korrekte Dataset-Anbindung und Modell-Endpoint-Verbindung verifizieren, einen manuellen Einzellauf mit einem GSM8K-Sample durchführen und sicherstellen, dass Ergebnisse korrekt in die Ergebnisstruktur zurückgeschrieben werden. Erst danach ist eine Neubewertung sinnvoll.

humaneval

IFEval — Instruction Following

Zusammenfassung

Der Benchmark liefert keinerlei verwertbare Ergebnisse: Alle Metriken sind null oder nicht definiert, und es wurden keine Samples verarbeitet. Das Modell wurde faktisch nicht evaluiert.

Stärken

Keine Fehler bei der Ausführung des Adapters (errors: 0)
Keine fehlgeschlagenen Samples im technischen Sinne

Schwächen

Pass-Rate ist `null` — kein einziges Sample wurde bewertet
Score ist undefiniert, sodass kein Vergleich mit anderen Modellen möglich ist
Weder Successes noch Failures vorhanden, was auf ein grundlegendes Integrationsproblem hindeutet

Auffälligkeiten

Die Kombination aus `passed: 0`, `failed: 0` und `errors: 0` bei gleichzeitig leeren Sample-Listen deutet nicht auf schlechte Modellleistung hin, sondern auf ein Konfigurationsproblem im Evaluierungspipeline. Möglicherweise wurde der Adapter nie gestartet, das Modell nicht korrekt geladen, oder die Ausgabe wurde nicht an den Harness zurückgegeben. Das Modell `mlx-community/Qwen3-Coder-Next` könnte unter MLX nicht korrekt initialisiert worden sein.

Empfehlung

Vor einer inhaltlichen Bewertung muss die technische Ursache behoben werden: Adapter-Logs prüfen, ob das Modell erfolgreich geladen wurde, und sicherstellen, dass der `lm_eval_harness`-Adapter die Generierungsanfragen korrekt weiterleitet. Ein minimaler Smoke-Test mit 5 Samples empfiehlt sich, bevor der vollständige 164-Aufgaben-Lauf wiederholt wird.

lm-evaluation-harness · v1.0.0+humaneval-unsafe-flag

Folgt das Modell strikten Anweisungen ohne Eigeninterpretation?

lm-evaluation-harness · v1.0.0+humaneval-unsafe-flag

Zusammenfassung

Der Sub-Benchmark IFEval liefert keinerlei verwertbare Ergebnisse, da weder Samples ausgeführt noch Metriken berechnet wurden. Die Pass-Rate ist `null`, alle Zähler stehen auf 0.

Stärken

Keine Fehler (Errors = 0), d.h. der Adapter ist technisch nicht abgestürzt
Die Benchmark-Konfiguration selbst scheint korrekt definiert zu sein

Schwächen

Kein einziges Sample wurde verarbeitet — Successes, Failures und Errors sind alle leer
Es existiert kein Score und keine Pass-Rate, womit die Aussagekraft vollständig fehlt
Das Modell `mlx-community/Qwen3-Coder-Next` wurde für diesen Sub-Benchmark de facto nicht getestet

Auffälligkeiten

Das auffälligste Muster ist das vollständige Fehlen jeglicher Samples. Dies deutet nicht auf ein Modell-Verhalten hin, sondern auf ein infrastrukturelles oder konfiguratives Problem: Möglicherweise wurde der Dataset-Split nicht geladen, der Adapter hat die Aufgaben nicht an das Modell weitergeleitet, oder die Benchmark-Pipeline wurde vorzeitig abgebrochen. Da Errors = 0, wurde kein Laufzeitfehler protokolliert, was auf ein stilles Scheitern (silent failure) hinweist.

Empfehlung

Vor jeder weiteren Auswertung sollte geprüft werden, ob der IFEval-Datensatz korrekt heruntergeladen und vom `lm_eval_harness`-Adapter als Task registriert wurde. Konkret: Den Task-Namen `ifeval` im Harness-Log verifizieren, den Dataset-Cache prüfen und einen Testlauf mit `--limit 5` durchführen, um sicherzustellen, dass überhaupt Samples übergeben werden. Erst danach ist eine inhaltliche Bewertung des Instruction-Following-Verhaltens möglich.

mmlu