Samples · baseline.throughput

Run #70 · Adapter v1.0.0 · 6/6 Samples angezeigt · Score 49.1%
‹ Zurück zum Run-Detail

KI-Auswertung

Generiert 2026-05-13 03:59 · claude-sonnet-4-6

Zusammenfassung

Der Throughput-Benchmark wurde mit einer Pass-Rate von 100 % (6/6) ohne Fehler abgeschlossen. Der normalisierte Score von 0,491 deutet auf eine moderate Inferenzgeschwindigkeit hin, die noch Luft nach oben lässt.

Stärken

  • Vollständige Fehlerfreiheit: Kein einziger Error oder Failure über alle Prompt-Typen hinweg
  • Korrekte und qualitativ hochwertige Antworten über alle Schwierigkeitsstufen (kurz bis lang), was auf stabile Modellausgaben hindeutet

Schwächen

  • Score von ~0,49 bedeutet, dass das Modell nur etwa die Hälfte der Referenz-Tokens/sec erreicht — für produktive Last möglicherweise zu langsam
  • Bei komplexeren Prompts (Quicksort-Pseudocode) wirken die Antworten abgeschnitten, was auf Token-Limits oder Puffer-Engpässe beim Streaming hinweisen könnte

Auffälligkeiten

Die Quicksort-Antwort endet mitten im Algorithmus (`// 2. Bewege j ...`), ohne den Partitionierungsalgorithmus zu vervollständigen. Dies tritt ausgerechnet beim längsten Prompt auf und könnte ein systematisches Problem bei langen Outputs im Streaming-Modus sein — nicht nur ein inhaltliches, sondern potenziell ein technisches Truncation-Problem.

Empfehlung

Den langen Prompt (Quicksort) gezielt mit erhöhtem `max_tokens`-Limit wiederholen, um zu prüfen, ob das Truncating ein Konfigurationsproblem ist. Parallel sollte geprüft werden, ob ein Wechsel zu einer höher quantisierten MLX-Variante (z. B. 4-bit statt 8-bit) den Throughput-Score deutlich über 0,6 anhebt, ohne Qualitätsverluste einzuführen.

Übersicht

6 Samples
Verteilung
6
Score-Histogramm
0 – 0.1: 0 0.1 – 0.2: 0 0.2 – 0.3: 0 0.3 – 0.4: 0 0.4 – 0.5: 0 0.5 – 0.6: 0 0.6 – 0.7: 0 0.7 – 0.8: 0 0.8 – 0.9: 0 0.9 – 1: 6
0.0 ────── 1.0
Latenz (ms)
p50: 2471 p95: 16516 mean: 5445
Tokens/s
p50: 57.5 mean: 49.1
TTFT (ms)
p50: 420 p95: 458
Status Score-Schwelle Score < 0.5
Frage-ID Status Score Prompt Latenz Tokens/s TTFT
throughput.short.0 passed 100% Was ist 7 mal 8? 551 ms 23.6 367 ms
Lade Detail …
throughput.short.1 passed 100% Was ist die Hauptstadt von Frankreich? 648 ms 24.7 419 ms
Lade Detail …
throughput.short.2 passed 100% Wie viele Beine hat eine Spinne? 2046 ms 55.2 432 ms
Lade Detail …
throughput.medium.0 passed 100% Erkläre Photosynthese in einem kurzen Absatz für ein 12-jähriges Kind. 2896 ms 59.7 420 ms
Lade Detail …
throughput.medium.1 passed 100% Beschreibe die wichtigsten Unterschiede zwischen REST und GraphQL in fünf Stichp… 6758 ms 64.7 467 ms
Lade Detail …
throughput.long.0 passed 100% Schreibe einen detaillierten Pseudocode für Quicksort. Wähle In-Place-Variante. … 19768 ms 67 416 ms
Lade Detail …