fix Qwen3-VL-4B-Instruct-GGUF models looping issue

This commit is contained in:
2025-11-15 19:49:21 +01:00
parent 5eb7b7bb0c
commit 669beccc35

View File

@@ -254,18 +254,19 @@ models:
ttl: 600 ttl: 600
cmd: | cmd: |
/app/llama-server /app/llama-server
-hf unsloth/Qwen3-VL-4B-Instruct-GGUF:Q4_K_M -hf Qwen/Qwen3-VL-4B-Instruct-GGUF:Q8_0
--n-gpu-layers 99 --n-gpu-layers 99
--ctx-size 12288 --ctx-size 12288
--predict 4096 --predict 4096
--flash-attn auto --flash-attn auto
--jinja --jinja
--top-p 0.95 --temp 0.7
--top-p 0.85
--top-k 20 --top-k 20
--temp 1.0
--min-p 0.05 --min-p 0.05
--repeat-penalty 1.0 --repeat-penalty 1.15
--presence-penalty 0.0 --frequency-penalty 0.5
--presence-penalty 0.4
--no-warmup --no-warmup
--port ${PORT} --port ${PORT}
@@ -273,17 +274,19 @@ models:
ttl: 600 ttl: 600
cmd: | cmd: |
/app/llama-server /app/llama-server
-hf unsloth/Qwen3-VL-4B-Instruct-GGUF:Q4_K_M -hf Qwen/Qwen3-VL-4B-Instruct-GGUF:Q8_0
--n-gpu-layers 99 --n-gpu-layers 99
--ctx-size 12288 --ctx-size 12288
--predict 4096 --predict 4096
--flash-attn auto --flash-attn auto
--jinja --jinja
--temp 0.7
--top-p 0.8 --top-p 0.8
--top-k 20 --top-k 20
--temp 0.7 --min-p 0.05
--min-p 0.0 --repeat-penalty 1.15
--presence-penalty 0.7 --frequency-penalty 0.5
--presence-penalty 0.6
--no-warmup --no-warmup
--port ${PORT} --port ${PORT}
@@ -291,7 +294,7 @@ models:
ttl: 600 ttl: 600
cmd: | cmd: |
/app/llama-server /app/llama-server
-hf unsloth/Qwen3-VL-4B-Thinking-GGUF:Q4_K_M -hf Qwen/Qwen3-VL-4B-Thinking-GGUF:Q4_K_M
--n-gpu-layers 99 --n-gpu-layers 99
--ctx-size 12288 --ctx-size 12288
--predict 4096 --predict 4096