Samples · baseline.throughput
KI-Auswertung
Generiert 2026-05-11 19:02 · claude-sonnet-4-6Zusammenfassung
Der Throughput-Benchmark wurde fehlerfrei mit einer Pass-Rate von 1,0 abgeschlossen. Der erzielte Score von 0,46 entspricht etwa 46 % des Referenzwerts, was auf einen moderaten Durchsatz hinweist.
Stärken
- Keine Fehler oder Ausfälle bei allen sechs Prompts unterschiedlicher Länge und Komplexität
- Korrekte und inhaltlich vollständige Antworten auf alle Prompt-Typen (kurz, mittel, lang)
Schwächen
- Score von 0,46 deutet darauf hin, dass das Modell nur knapp die Hälfte des Referenz-Durchsatzes erreicht
- Bei langen Prompts (Quicksort-Pseudocode) wurde die Antwort offenbar abgeschnitten — der Pseudocode für die `partition`-Funktion endet mitten im Code
Auffälligkeiten
Der einzige strukturelle Ausreißer ist die abgeschnittene Quicksort-Antwort: Die `partition`-Prozedur bricht nach der Initialisierung von `i` ab. Dies könnte auf ein Token-Limit oder einen Streaming-Abbruch bei langen Antworten hinweisen, nicht auf inhaltliche Schwäche des Modells. Alle anderen Antworten sind vollständig. Zudem enthält das Modell in mehreren kurzen Antworten Emojis, was je nach Einsatzszenario unerwünscht sein kann.
Empfehlung
Den maximalen Output-Token-Limit für den langen Prompt-Typ erhöhen und prüfen, ob die abgeschnittene Ausgabe den Throughput-Score negativ beeinflusst. Zusätzlich empfiehlt sich ein direkter Vergleich mit einem kleineren oder stärker quantisierten Modell, um die Ursache des niedrigen Scores (Modellgröße vs. Quantisierung) zu isolieren.
Übersicht
6 Samples| Frage-ID | Status | Score | Prompt | Latenz | Tokens/s | TTFT | |
|---|---|---|---|---|---|---|---|
| throughput.short.0 | passed | Was ist 7 mal 8? | 618 ms | 21 | 428 ms | ||
|
Lade Detail …
|
|||||||
| throughput.short.1 | passed | Was ist die Hauptstadt von Frankreich? | 645 ms | 24.8 | 414 ms | ||
|
Lade Detail …
|
|||||||
| throughput.short.2 | passed | Wie viele Beine hat eine Spinne? | 1946 ms | 52.9 | 362 ms | ||
|
Lade Detail …
|
|||||||
| throughput.medium.0 | passed | Erkläre Photosynthese in einem kurzen Absatz für ein 12-jähriges Kind. | 3229 ms | 54.8 | 517 ms | ||
|
Lade Detail …
|
|||||||
| throughput.medium.1 | passed | Beschreibe die wichtigsten Unterschiede zwischen REST und GraphQL in fünf Stichp… | 6646 ms | 60.5 | 453 ms | ||
|
Lade Detail …
|
|||||||
| throughput.long.0 | passed | Schreibe einen detaillierten Pseudocode für Quicksort. Wähle In-Place-Variante. … | 21570 ms | 62.9 | 447 ms | ||
|
Lade Detail …
|
|||||||