Samples · baseline.sanity

Run #25 · Adapter v1.0.0 · 3/3 Samples angezeigt · Score 100%
‹ Zurück zum Run-Detail

KI-Auswertung

Generiert 2026-05-10 16:15 · claude-sonnet-4-6

Zusammenfassung

Der Smoke-Test wurde mit einer Pass-Rate von 100 % vollständig bestanden. Alle drei trivialen Fragen wurden korrekt und formatkonform beantwortet.

Stärken

  • Perfekte Antwortgenauigkeit bei allen drei Testfällen
  • Strikte Einhaltung der Formatvorgaben (nur Zahl, nur ein Wort, nur Großbuchstaben)
  • Keine Errors und keine Failures, stabile Endpoint-Kommunikation

Schwächen

  • Keine Schwächen im Rahmen dieses Tests erkennbar

Auffälligkeiten

Keine auffälligen Muster in den Failures, da keine vorhanden sind. Die Antworten sind minimal und präzise, ohne unerwünschte Zusatztexte oder Erklärungen — was bei größeren Sprachmodellen nicht selbstverständlich ist.

Empfehlung

Den Sanity-Test als bestanden abhaken und den Fokus auf anspruchsvollere Sub-Benchmarks legen, etwa Reasoning, Instruction-Following bei komplexen Vorgaben oder mehrsprachige Prompts. Die Baseline ist solide, aussagekräftigere Erkenntnisse liefern nur tiefergehende Tests.

Übersicht

3 Samples
Verteilung
3
Score-Histogramm
0 – 0.1: 0 0.1 – 0.2: 0 0.2 – 0.3: 0 0.3 – 0.4: 0 0.4 – 0.5: 0 0.5 – 0.6: 0 0.6 – 0.7: 0 0.7 – 0.8: 0 0.8 – 0.9: 0 0.9 – 1: 3
0.0 ────── 1.0
Latenz (ms)
p50: 177 p95: 185 mean: 176
Tokens/s
p50: 6 mean: 9.3
Status Score-Schwelle Score < 0.5
Frage-ID Status Score Prompt Latenz Tokens/s TTFT
sanity.0 passed 100% Was ist 2 plus 2? Antworte nur mit der Zahl, sonst nichts. 177 ms 5.6
Lade Detail …
sanity.1 passed 100% Was ist die Hauptstadt von Deutschland? Antworte mit einem einzigen Wort. 166 ms 6
Lade Detail …
sanity.2 passed 100% Schreibe das Wort Pizza in Großbuchstaben. 186 ms 16.1
Lade Detail …