Run #25 🔒

qwen3.6-35b-a3b-tq3 TurboQant3 · llama-tq3 · gestartet 2026-05-10 15:45:53

completed

Aktueller Adapter baseline.sanity

Samples 10 / 10 (100%)

Errors 0

Letzter Heartbeat 16:15:25

Beendet 2026-05-10 16:15:25

Cold-Start TTFT

Baseline — Streaming-Performance & Sanity · v1.0.0

Wie schnell antwortet das Modell auf den ersten Token-Stream nach Aufruf?

203ms

Antwortzeit gesamt · 100% pass · ↑ 0%

1 ok · 0 failed

KI-Bewertung anzeigen

Zusammenfassung

Der Cold-Start-TTFT-Benchmark wurde mit einer Pass-Rate von 100 % (1/1) vollständig bestanden. Das Modell reagierte korrekt und ohne Fehler auf den minimalen Testprompt.

Stärken

Keine Errors und keine Failures bei der Erstanfrage
Antwort präzise und regelkonform: nur "OK", ohne überflüssige Tokens

Schwächen

Stichprobengröße von n=1 erlaubt keine statistisch belastbare Aussage über die tatsächliche TTFT-Stabilität
Konkrete Latenzmesswerte (ms) fehlen in der Auswertung, sodass kein absoluter Vergleichswert vorliegt

Auffälligkeiten

Keine Muster erkennbar, da nur ein einziger Testfall vorliegt. Der Prompt ist trivial kurz und kontextfrei, was die Aussagekraft über das Verhalten bei realen Anfragen einschränkt.

Empfehlung

Den Cold-Start-Benchmark auf mindestens 10–20 Wiederholungen mit variierenden Promptlängen ausweiten, um Latenz-Ausreißer und Warmup-Effekte sichtbar zu machen. Zusätzlich sollten absolute TTFT-Werte (p50, p95) erfasst und in die Auswertung einbezogen werden.

Sanity — Substring-Checks

Baseline — Streaming-Performance & Sanity · v1.0.0

Liefert der Endpoint überhaupt korrekte Antworten auf einfachste Fragen?

100%

↑ 0%

3 ok · 0 failed

KI-Bewertung anzeigen

Zusammenfassung

Der Smoke-Test wurde mit einer Pass-Rate von 100 % vollständig bestanden. Alle drei trivialen Fragen wurden korrekt und formatkonform beantwortet.

Stärken

Perfekte Antwortgenauigkeit bei allen drei Testfällen
Strikte Einhaltung der Formatvorgaben (nur Zahl, nur ein Wort, nur Großbuchstaben)
Keine Errors und keine Failures, stabile Endpoint-Kommunikation

Schwächen

Keine Schwächen im Rahmen dieses Tests erkennbar

Auffälligkeiten

Keine auffälligen Muster in den Failures, da keine vorhanden sind. Die Antworten sind minimal und präzise, ohne unerwünschte Zusatztexte oder Erklärungen — was bei größeren Sprachmodellen nicht selbstverständlich ist.

Empfehlung

Den Sanity-Test als bestanden abhaken und den Fokus auf anspruchsvollere Sub-Benchmarks legen, etwa Reasoning, Instruction-Following bei komplexen Vorgaben oder mehrsprachige Prompts. Die Baseline ist solide, aussagekräftigere Erkenntnisse liefern nur tiefergehende Tests.

Throughput — Tokens/sec

Baseline — Streaming-Performance & Sanity · v1.0.0

Wie viele Tokens pro Sekunde liefert das Modell unter realistischer Last?

120.1t/s

Tokens/sec (p50) · 100% pass · ↑ 0%

6 ok · 0 failed

KI-Bewertung anzeigen

Zusammenfassung

Der Throughput-Benchmark wurde vollständig bestanden: alle 6 Prompts wurden fehlerfrei verarbeitet, mit einer Pass-Rate von 1,0. Das Modell qwen3.6-35b-a3b-tq3 lieferte unter realistischer Last konsistente Ergebnisse über kurze, mittlere und lange Eingaben hinweg.

Stärken

Null Fehler und Null Ausfälle über alle Prompt-Kategorien hinweg
Antwortqualität ist durchgehend korrekt und aufgabengerecht, von einfachen Faktenfragen bis hin zu technischen Erklärungen
Strukturierte Antworten (Pseudocode, Stichpunkte) werden korrekt formatiert

Schwächen

Eine Antwort (Quicksort-Pseudocode) wurde offensichtlich abgeschnitten; der letzte Satz endet mitten im Wort ("E"), was auf ein Token-Limit oder einen Streaming-Abbruch hindeutet
Eine weitere Antwort (REST vs. GraphQL) bricht ebenfalls mittendrin ab ("GraphQL bietet durch"), was denselben Verdacht erhärtet

Auffälligkeiten

Beide abgeschnittenen Antworten betreffen die längeren, strukturierten Prompts (Pseudocode, technischer Vergleich). Kurze Faktenfragen sind vollständig beantwortet. Das Muster deutet auf ein zu niedrig konfiguriertes `max_tokens`-Limit hin, nicht auf ein grundsätzliches Modellproblem.

Empfehlung

Das `max_tokens`-Limit für den Benchmark sollte für mittlere und lange Prompts erhöht werden (Empfehlung: mindestens 1024 Tokens), um Antwortabschneidungen zu vermeiden und die Throughput-Messung unter realistischen Bedingungen zu validieren.

›

Live-View

elapsed

KI-Bewertung

Generiert 2026-05-10 16:15 · claude-sonnet-4-6

Gesamteindruck

Das Modell qwen3.6-35b-a3b-tq3 besteht alle drei Basis-Benchmarks mit 100 % Pass-Rate und zeigt eine stabile, formatkonforme Ausgabe bei einfachen bis mittelschweren Aufgaben. Auffällig sind jedoch zwei abgeschnittene Antworten bei längeren, strukturierten Prompts, die auf ein zu restriktives `max_tokens`-Limit im Testsetup hindeuten.

Stärken

Fehlerfreie Verarbeitung aller Testprompts ohne Errors oder Failures
Strikte Einhaltung von Formatvorgaben auch ohne explizite Wiederholung
Konsistentes Verhalten über kurze, mittlere und lange Eingaben hinweg

Schwächen

Antworten bei längeren, technischen Prompts werden abgeschnitten (Token-Limit-Problem im Setup)
Benchmarks zu klein (n=1 bis n=6), um statistisch belastbare Aussagen zu treffen
Keine Latenzmessungen (p50/p95 TTFT), reale Performance nicht quantifizierbar

Empfehlung

Vor dem produktiven Einsatz `max_tokens` auf mindestens 1024 anheben, Benchmark-Stichproben deutlich vergroessern und anspruchsvollere Tests (Reasoning, mehrstufiges Instruction-Following) ergaenzen, um die tatsaechliche Modellqualitaet belastbar zu bewerten.

Stärken & Schwächen

Auf Basis der Pass-Raten dieses Runs

Stärken

Keine Sub-Benchmarks im "good"-Bereich.

Schwächen

Keine Sub-Benchmarks im "poor"-Bereich.

Telemetrie

GPU-Auslastung (%)

VRAM (MB)

Snapshots

› Konfiguration

7 Felder

{
    "name": "Kurztest",
    "provider_id": 1,
    "model_id": 2,
    "benchmarks": [
        {
            "adapter_key": "baseline",
            "sub_benchmarks": [
                "cold_start",
                "throughput",
                "sanity"
            ],
            "threshold_override": null
        },
        {
            "adapter_key": "lm_eval_harness",
            "sub_benchmarks": [
                "humaneval",
                "ifeval"
            ],
            "threshold_override": null
        }
    ],
    "tags": [],
    "notes": null,
    "model": {
        "base_name": "qwen3.6-35b-a3b-tq3",
        "quantization": "TurboQant3",
        "format": "gguf",
        "source_url": null,
        "build_notes": "selbst kompiliertes llmama mit TurboQuant3 für Gewichte",
        "checksum": null
    }
}

› Provider

7 Felder

{
    "name": "llama-tq3",
    "type": "ollama",
    "endpoint_url": "http://100.64.0.4:8090/",
    "api_key_env_var": null,
    "sampling_params": [],
    "provider_specific": [],
    "telemetry_sample_interval_ms": 1000
}

› Hardware

1 Felder

[
    {
        "name": "kim",
        "hostname": "100.64.0.4",
        "gpu_description": "RTX 5080 16GB",
        "cpu": "Ryzen 9800 X3D",
        "ram": "64GB DDR5",
        "storage": "1TB+4TB SSD",
        "network": null,
        "notes": null
    }
]

› System

6 Felder

{
    "php_version": "8.4.21",
    "os": "Linux",
    "os_release": "6.8.0-111-generic",
    "symfony_version": "7.4.10",
    "provider_version_hint": null,
    "recorded_at": "2026-05-10T15:45:54+02:00"
}

Log-Verzeichnis

/home/webuser/htdocs/llmbench.mandarin.dev/dev/app/var/logs/runs/25