Run #25 🔒

qwen3.6-35b-a3b-tq3 TurboQant3 · llama-tq3 · gestartet 2026-05-10 15:45:53
completed
Aktueller Adapter baseline.sanity
Samples 10 / 10 (100%)
Errors 0
Letzter Heartbeat 16:15:25
Beendet 2026-05-10 16:15:25
Cold-Start TTFT
Baseline — Streaming-Performance & Sanity · v1.0.0

Wie schnell antwortet das Modell auf den ersten Token-Stream nach Aufruf?

203ms
Antwortzeit gesamt · 100% pass · ↑ 0%
1 ok · 0 failed
KI-Bewertung anzeigen

Zusammenfassung

Der Cold-Start-TTFT-Benchmark wurde mit einer Pass-Rate von 100 % (1/1) vollständig bestanden. Das Modell reagierte korrekt und ohne Fehler auf den minimalen Testprompt.

Stärken

  • Keine Errors und keine Failures bei der Erstanfrage
  • Antwort präzise und regelkonform: nur "OK", ohne überflüssige Tokens

Schwächen

  • Stichprobengröße von n=1 erlaubt keine statistisch belastbare Aussage über die tatsächliche TTFT-Stabilität
  • Konkrete Latenzmesswerte (ms) fehlen in der Auswertung, sodass kein absoluter Vergleichswert vorliegt

Auffälligkeiten

Keine Muster erkennbar, da nur ein einziger Testfall vorliegt. Der Prompt ist trivial kurz und kontextfrei, was die Aussagekraft über das Verhalten bei realen Anfragen einschränkt.

Empfehlung

Den Cold-Start-Benchmark auf mindestens 10–20 Wiederholungen mit variierenden Promptlängen ausweiten, um Latenz-Ausreißer und Warmup-Effekte sichtbar zu machen. Zusätzlich sollten absolute TTFT-Werte (p50, p95) erfasst und in die Auswertung einbezogen werden.

Sanity — Substring-Checks
Baseline — Streaming-Performance & Sanity · v1.0.0

Liefert der Endpoint überhaupt korrekte Antworten auf einfachste Fragen?

100%
↑ 0%
3 ok · 0 failed
KI-Bewertung anzeigen

Zusammenfassung

Der Smoke-Test wurde mit einer Pass-Rate von 100 % vollständig bestanden. Alle drei trivialen Fragen wurden korrekt und formatkonform beantwortet.

Stärken

  • Perfekte Antwortgenauigkeit bei allen drei Testfällen
  • Strikte Einhaltung der Formatvorgaben (nur Zahl, nur ein Wort, nur Großbuchstaben)
  • Keine Errors und keine Failures, stabile Endpoint-Kommunikation

Schwächen

  • Keine Schwächen im Rahmen dieses Tests erkennbar

Auffälligkeiten

Keine auffälligen Muster in den Failures, da keine vorhanden sind. Die Antworten sind minimal und präzise, ohne unerwünschte Zusatztexte oder Erklärungen — was bei größeren Sprachmodellen nicht selbstverständlich ist.

Empfehlung

Den Sanity-Test als bestanden abhaken und den Fokus auf anspruchsvollere Sub-Benchmarks legen, etwa Reasoning, Instruction-Following bei komplexen Vorgaben oder mehrsprachige Prompts. Die Baseline ist solide, aussagekräftigere Erkenntnisse liefern nur tiefergehende Tests.

Throughput — Tokens/sec
Baseline — Streaming-Performance & Sanity · v1.0.0

Wie viele Tokens pro Sekunde liefert das Modell unter realistischer Last?

120.1t/s
Tokens/sec (p50) · 100% pass · ↑ 0%
6 ok · 0 failed
KI-Bewertung anzeigen

Zusammenfassung

Der Throughput-Benchmark wurde vollständig bestanden: alle 6 Prompts wurden fehlerfrei verarbeitet, mit einer Pass-Rate von 1,0. Das Modell qwen3.6-35b-a3b-tq3 lieferte unter realistischer Last konsistente Ergebnisse über kurze, mittlere und lange Eingaben hinweg.

Stärken

  • Null Fehler und Null Ausfälle über alle Prompt-Kategorien hinweg
  • Antwortqualität ist durchgehend korrekt und aufgabengerecht, von einfachen Faktenfragen bis hin zu technischen Erklärungen
  • Strukturierte Antworten (Pseudocode, Stichpunkte) werden korrekt formatiert

Schwächen

  • Eine Antwort (Quicksort-Pseudocode) wurde offensichtlich abgeschnitten; der letzte Satz endet mitten im Wort ("E"), was auf ein Token-Limit oder einen Streaming-Abbruch hindeutet
  • Eine weitere Antwort (REST vs. GraphQL) bricht ebenfalls mittendrin ab ("GraphQL bietet durch"), was denselben Verdacht erhärtet

Auffälligkeiten

Beide abgeschnittenen Antworten betreffen die längeren, strukturierten Prompts (Pseudocode, technischer Vergleich). Kurze Faktenfragen sind vollständig beantwortet. Das Muster deutet auf ein zu niedrig konfiguriertes `max_tokens`-Limit hin, nicht auf ein grundsätzliches Modellproblem.

Empfehlung

Das `max_tokens`-Limit für den Benchmark sollte für mittlere und lange Prompts erhöht werden (Empfehlung: mindestens 1024 Tokens), um Antwortabschneidungen zu vermeiden und die Throughput-Messung unter realistischen Bedingungen zu validieren.

Live-View

elapsed
Event-Stream

KI-Bewertung

Generiert 2026-05-10 16:15 · claude-sonnet-4-6

Gesamteindruck

Das Modell qwen3.6-35b-a3b-tq3 besteht alle drei Basis-Benchmarks mit 100 % Pass-Rate und zeigt eine stabile, formatkonforme Ausgabe bei einfachen bis mittelschweren Aufgaben. Auffällig sind jedoch zwei abgeschnittene Antworten bei längeren, strukturierten Prompts, die auf ein zu restriktives `max_tokens`-Limit im Testsetup hindeuten.

Stärken

  • Fehlerfreie Verarbeitung aller Testprompts ohne Errors oder Failures
  • Strikte Einhaltung von Formatvorgaben auch ohne explizite Wiederholung
  • Konsistentes Verhalten über kurze, mittlere und lange Eingaben hinweg

Schwächen

  • Antworten bei längeren, technischen Prompts werden abgeschnitten (Token-Limit-Problem im Setup)
  • Benchmarks zu klein (n=1 bis n=6), um statistisch belastbare Aussagen zu treffen
  • Keine Latenzmessungen (p50/p95 TTFT), reale Performance nicht quantifizierbar

Empfehlung

Vor dem produktiven Einsatz `max_tokens` auf mindestens 1024 anheben, Benchmark-Stichproben deutlich vergroessern und anspruchsvollere Tests (Reasoning, mehrstufiges Instruction-Following) ergaenzen, um die tatsaechliche Modellqualitaet belastbar zu bewerten.

Stärken & Schwächen

Auf Basis der Pass-Raten dieses Runs

Stärken

Keine Sub-Benchmarks im "good"-Bereich.

Schwächen

Keine Sub-Benchmarks im "poor"-Bereich.

Telemetrie

GPU-Auslastung (%)
VRAM (MB)

Snapshots

Konfiguration
7 Felder
{
    "name": "Kurztest",
    "provider_id": 1,
    "model_id": 2,
    "benchmarks": [
        {
            "adapter_key": "baseline",
            "sub_benchmarks": [
                "cold_start",
                "throughput",
                "sanity"
            ],
            "threshold_override": null
        },
        {
            "adapter_key": "lm_eval_harness",
            "sub_benchmarks": [
                "humaneval",
                "ifeval"
            ],
            "threshold_override": null
        }
    ],
    "tags": [],
    "notes": null,
    "model": {
        "base_name": "qwen3.6-35b-a3b-tq3",
        "quantization": "TurboQant3",
        "format": "gguf",
        "source_url": null,
        "build_notes": "selbst kompiliertes llmama mit TurboQuant3 für Gewichte",
        "checksum": null
    }
}
Provider
7 Felder
{
    "name": "llama-tq3",
    "type": "ollama",
    "endpoint_url": "http://100.64.0.4:8090/",
    "api_key_env_var": null,
    "sampling_params": [],
    "provider_specific": [],
    "telemetry_sample_interval_ms": 1000
}
Hardware
1 Felder
[
    {
        "name": "kim",
        "hostname": "100.64.0.4",
        "gpu_description": "RTX 5080 16GB",
        "cpu": "Ryzen 9800 X3D",
        "ram": "64GB DDR5",
        "storage": "1TB+4TB SSD",
        "network": null,
        "notes": null
    }
]
System
6 Felder
{
    "php_version": "8.4.21",
    "os": "Linux",
    "os_release": "6.8.0-111-generic",
    "symfony_version": "7.4.10",
    "provider_version_hint": null,
    "recorded_at": "2026-05-10T15:45:54+02:00"
}

Log-Verzeichnis

/home/webuser/htdocs/llmbench.mandarin.dev/dev/app/var/logs/runs/25