Samples · baseline.throughput

Run #57 · Adapter v1.0.0 · 6/6 Samples angezeigt · Score 46.2%
‹ Zurück zum Run-Detail

KI-Auswertung

Generiert 2026-05-11 19:02 · claude-sonnet-4-6

Zusammenfassung

Der Throughput-Benchmark wurde fehlerfrei mit einer Pass-Rate von 1,0 abgeschlossen. Der erzielte Score von 0,46 entspricht etwa 46 % des Referenzwerts, was auf einen moderaten Durchsatz hinweist.

Stärken

  • Keine Fehler oder Ausfälle bei allen sechs Prompts unterschiedlicher Länge und Komplexität
  • Korrekte und inhaltlich vollständige Antworten auf alle Prompt-Typen (kurz, mittel, lang)

Schwächen

  • Score von 0,46 deutet darauf hin, dass das Modell nur knapp die Hälfte des Referenz-Durchsatzes erreicht
  • Bei langen Prompts (Quicksort-Pseudocode) wurde die Antwort offenbar abgeschnitten — der Pseudocode für die `partition`-Funktion endet mitten im Code

Auffälligkeiten

Der einzige strukturelle Ausreißer ist die abgeschnittene Quicksort-Antwort: Die `partition`-Prozedur bricht nach der Initialisierung von `i` ab. Dies könnte auf ein Token-Limit oder einen Streaming-Abbruch bei langen Antworten hinweisen, nicht auf inhaltliche Schwäche des Modells. Alle anderen Antworten sind vollständig. Zudem enthält das Modell in mehreren kurzen Antworten Emojis, was je nach Einsatzszenario unerwünscht sein kann.

Empfehlung

Den maximalen Output-Token-Limit für den langen Prompt-Typ erhöhen und prüfen, ob die abgeschnittene Ausgabe den Throughput-Score negativ beeinflusst. Zusätzlich empfiehlt sich ein direkter Vergleich mit einem kleineren oder stärker quantisierten Modell, um die Ursache des niedrigen Scores (Modellgröße vs. Quantisierung) zu isolieren.

Übersicht

6 Samples
Verteilung
6
Score-Histogramm
0 – 0.1: 0 0.1 – 0.2: 0 0.2 – 0.3: 0 0.3 – 0.4: 0 0.4 – 0.5: 0 0.5 – 0.6: 0 0.6 – 0.7: 0 0.7 – 0.8: 0 0.8 – 0.9: 0 0.9 – 1: 6
0.0 ────── 1.0
Latenz (ms)
p50: 2588 p95: 17839 mean: 5776
Tokens/s
p50: 53.9 mean: 46.2
TTFT (ms)
p50: 438 p95: 501
Status Score-Schwelle Score < 0.5
Frage-ID Status Score Prompt Latenz Tokens/s TTFT
throughput.short.0 passed 100% Was ist 7 mal 8? 618 ms 21 428 ms
Lade Detail …
throughput.short.1 passed 100% Was ist die Hauptstadt von Frankreich? 645 ms 24.8 414 ms
Lade Detail …
throughput.short.2 passed 100% Wie viele Beine hat eine Spinne? 1946 ms 52.9 362 ms
Lade Detail …
throughput.medium.0 passed 100% Erkläre Photosynthese in einem kurzen Absatz für ein 12-jähriges Kind. 3229 ms 54.8 517 ms
Lade Detail …
throughput.medium.1 passed 100% Beschreibe die wichtigsten Unterschiede zwischen REST und GraphQL in fünf Stichp… 6646 ms 60.5 453 ms
Lade Detail …
throughput.long.0 passed 100% Schreibe einen detaillierten Pseudocode für Quicksort. Wähle In-Place-Variante. … 21570 ms 62.9 447 ms
Lade Detail …