
为什么显存没占满,速度却掉到了脚脖子? 为什么 CPU 线程拉满,性能反而缩水 50%? 本期视频带你实测 RTX 3050 8G 在运行 Qwen 3.5 9B 时的性能极限。 通过《三体》3 万字压力测试,深度拆解上下文长度、KV Cache 量化、Batch Size 以及 CPU 线程对推理速度的真实影响。 【核心调优结论】 8G 显存黄金平衡点:32k 上下文--ctx-size 64k 极限模式:必开缓存量化 --cache-type-k/v q4_0 预处理加速:调大吞吐量 --batch-size 远比增加 CPU 线程有效。#模型调优 #本地部署ai 【我的配置】显卡: 3050 8G | 内存: 32G DDR4 | CPU: i3-12100