Samples · baseline.throughput
KI-Auswertung
Generiert 2026-05-13 03:59 · claude-sonnet-4-6Zusammenfassung
Der Throughput-Benchmark wurde mit einer Pass-Rate von 100 % (6/6) ohne Fehler abgeschlossen. Der normalisierte Score von 0,491 deutet auf eine moderate Inferenzgeschwindigkeit hin, die noch Luft nach oben lässt.
Stärken
- Vollständige Fehlerfreiheit: Kein einziger Error oder Failure über alle Prompt-Typen hinweg
- Korrekte und qualitativ hochwertige Antworten über alle Schwierigkeitsstufen (kurz bis lang), was auf stabile Modellausgaben hindeutet
Schwächen
- Score von ~0,49 bedeutet, dass das Modell nur etwa die Hälfte der Referenz-Tokens/sec erreicht — für produktive Last möglicherweise zu langsam
- Bei komplexeren Prompts (Quicksort-Pseudocode) wirken die Antworten abgeschnitten, was auf Token-Limits oder Puffer-Engpässe beim Streaming hinweisen könnte
Auffälligkeiten
Die Quicksort-Antwort endet mitten im Algorithmus (`// 2. Bewege j ...`), ohne den Partitionierungsalgorithmus zu vervollständigen. Dies tritt ausgerechnet beim längsten Prompt auf und könnte ein systematisches Problem bei langen Outputs im Streaming-Modus sein — nicht nur ein inhaltliches, sondern potenziell ein technisches Truncation-Problem.
Empfehlung
Den langen Prompt (Quicksort) gezielt mit erhöhtem `max_tokens`-Limit wiederholen, um zu prüfen, ob das Truncating ein Konfigurationsproblem ist. Parallel sollte geprüft werden, ob ein Wechsel zu einer höher quantisierten MLX-Variante (z. B. 4-bit statt 8-bit) den Throughput-Score deutlich über 0,6 anhebt, ohne Qualitätsverluste einzuführen.
Übersicht
6 Samples| Frage-ID | Status | Score | Prompt | Latenz | Tokens/s | TTFT | |
|---|---|---|---|---|---|---|---|
| throughput.short.0 | passed | Was ist 7 mal 8? | 551 ms | 23.6 | 367 ms | ||
|
Lade Detail …
|
|||||||
| throughput.short.1 | passed | Was ist die Hauptstadt von Frankreich? | 648 ms | 24.7 | 419 ms | ||
|
Lade Detail …
|
|||||||
| throughput.short.2 | passed | Wie viele Beine hat eine Spinne? | 2046 ms | 55.2 | 432 ms | ||
|
Lade Detail …
|
|||||||
| throughput.medium.0 | passed | Erkläre Photosynthese in einem kurzen Absatz für ein 12-jähriges Kind. | 2896 ms | 59.7 | 420 ms | ||
|
Lade Detail …
|
|||||||
| throughput.medium.1 | passed | Beschreibe die wichtigsten Unterschiede zwischen REST und GraphQL in fünf Stichp… | 6758 ms | 64.7 | 467 ms | ||
|
Lade Detail …
|
|||||||
| throughput.long.0 | passed | Schreibe einen detaillierten Pseudocode für Quicksort. Wähle In-Place-Variante. … | 19768 ms | 67 | 416 ms | ||
|
Lade Detail …
|
|||||||