Samples · baseline.throughput

Run #25 · Adapter v1.0.0 · 0/6 Samples angezeigt · Score 100%
‹ Zurück zum Run-Detail

KI-Auswertung

Generiert 2026-05-10 16:15 · claude-sonnet-4-6

Zusammenfassung

Der Throughput-Benchmark wurde vollständig bestanden: alle 6 Prompts wurden fehlerfrei verarbeitet, mit einer Pass-Rate von 1,0. Das Modell qwen3.6-35b-a3b-tq3 lieferte unter realistischer Last konsistente Ergebnisse über kurze, mittlere und lange Eingaben hinweg.

Stärken

  • Null Fehler und Null Ausfälle über alle Prompt-Kategorien hinweg
  • Antwortqualität ist durchgehend korrekt und aufgabengerecht, von einfachen Faktenfragen bis hin zu technischen Erklärungen
  • Strukturierte Antworten (Pseudocode, Stichpunkte) werden korrekt formatiert

Schwächen

  • Eine Antwort (Quicksort-Pseudocode) wurde offensichtlich abgeschnitten; der letzte Satz endet mitten im Wort ("E"), was auf ein Token-Limit oder einen Streaming-Abbruch hindeutet
  • Eine weitere Antwort (REST vs. GraphQL) bricht ebenfalls mittendrin ab ("GraphQL bietet durch"), was denselben Verdacht erhärtet

Auffälligkeiten

Beide abgeschnittenen Antworten betreffen die längeren, strukturierten Prompts (Pseudocode, technischer Vergleich). Kurze Faktenfragen sind vollständig beantwortet. Das Muster deutet auf ein zu niedrig konfiguriertes `max_tokens`-Limit hin, nicht auf ein grundsätzliches Modellproblem.

Empfehlung

Das `max_tokens`-Limit für den Benchmark sollte für mittlere und lange Prompts erhöht werden (Empfehlung: mindestens 1024 Tokens), um Antwortabschneidungen zu vermeiden und die Throughput-Messung unter realistischen Bedingungen zu validieren.

Übersicht

6 Samples
Verteilung
6
Score-Histogramm
0 – 0.1: 0 0.1 – 0.2: 0 0.2 – 0.3: 0 0.3 – 0.4: 0 0.4 – 0.5: 0 0.5 – 0.6: 0 0.6 – 0.7: 0 0.7 – 0.8: 0 0.8 – 0.9: 0 0.9 – 1: 6
0.0 ────── 1.0
Latenz (ms)
p50: 656 p95: 5319 mean: 1668
Tokens/s
p50: 120.1 mean: 103.5
Status Score-Schwelle Zurücksetzen Score < 0.5
Frage-ID Status Score Prompt Latenz Tokens/s TTFT
Keine Samples
Filter zurücksetzen, um die 6 Samples zu sehen.
0 von 6 Samples · Limit 200 Nächste ›