Samples · baseline.sanity
KI-Auswertung
Generiert 2026-05-10 17:12 · claude-sonnet-4-6Zusammenfassung
Das Modell qwen3.6-35b-a3b-tq3 besteht den Sanity-Benchmark mit einer perfekten Pass-Rate von 100 % (3/3). Alle drei trivialen Fragen wurden korrekt und im geforderten Format beantwortet.
Stärken
- Vollständige Instruktionsfolge: Antworten sind präzise auf das Wesentliche reduziert, ohne unerwünschte Zusatzinformationen.
- Null Fehler und Null Failures — der Endpoint ist grundsätzlich funktionsfähig und stabil.
Schwächen
- Keine Schwächen im Rahmen dieses Sub-Benchmarks erkennbar.
- Aussagekraft begrenzt: Drei Fragen sind kein belastbarer Beweis für robuste Leistung.
Auffälligkeiten
Keine Muster in Failures erkennbar, da keine Failures vorliegen. Die Antworten sind minimal und exakt — auffällig positiv im Vergleich zu Modellen, die trotz einfacher Instruktionen Zusatztexte generieren.
Empfehlung
Den Sanity-Test als bestanden abhaken und den Fokus auf anspruchsvollere Sub-Benchmarks legen (z. B. Reasoning, Instruction-Following bei komplexen Prompts oder mehrsprachige Szenarien). Die Quantisierung tq3 scheint für einfache Aufgaben keine Qualitätseinbußen zu verursachen — ein direkter Vergleich mit einer höherwertigen Quantisierungsstufe (z. B. tq4 oder fp16) auf schwierigeren Benchmarks wäre sinnvoll, um etwaige Degradationseffekte zu identifizieren.
Übersicht
3 Samples| Frage-ID | Status | Score | Prompt | Latenz | Tokens/s | TTFT | |
|---|---|---|---|---|---|---|---|
| sanity.0 | passed | Was ist 2 plus 2? Antworte nur mit der Zahl, sonst nichts. | 169 ms | 5.9 | — | ||
|
Lade Detail …
|
|||||||
| sanity.1 | passed | Was ist die Hauptstadt von Deutschland? Antworte mit einem einzigen Wort. | 173 ms | 5.8 | — | ||
|
Lade Detail …
|
|||||||
| sanity.2 | passed | Schreibe das Wort Pizza in Großbuchstaben. | 188 ms | 16 | — | ||
|
Lade Detail …
|
|||||||