healthCheckTimeout: 600 models: "DeepSeek-R1-0528-Qwen3-8B-GGUF": ttl: 600 cmd: | /app/llama-server -hf unsloth/DeepSeek-R1-0528-Qwen3-8B-GGUF:Q4_K_M --n-gpu-layers 37 --ctx-size 16384 --no-warmup --port ${PORT} "Qwen3-8B-GGUF": ttl: 600 cmd: | /app/llama-server -hf unsloth/Qwen3-8B-GGUF:Q4_K_M --n-gpu-layers 37 --ctx-size 16384 --no-warmup --port ${PORT} "Qwen3-8B-GGUF-no-thinking": ttl: 600 cmd: | /app/llama-server -hf unsloth/Qwen3-8B-GGUF:Q4_K_M --n-gpu-layers 37 --ctx-size 16384 --jinja --chat-template-file /config/qwen_nothink_chat_template.jinja --no-warmup --port ${PORT} "gemma3n-e4b": ttl: 600 cmd: | /app/llama-server -hf unsloth/gemma-3n-E4B-it-GGUF:UD-Q4_K_XL --ctx-size 16384 --n-gpu-layers 99 --seed 3407 --prio 2 --temp 1.0 --repeat-penalty 1.0 --min-p 0.00 --top-k 64 --top-p 0.95 --no-warmup --port ${PORT} "gemma3-12b": ttl: 600 cmd: | /app/llama-server -hf unsloth/gemma-3-12b-it-GGUF:Q4_K_M --ctx-size 16384 --n-gpu-layers 99 --prio 2 --temp 1.0 --repeat-penalty 1.0 --min-p 0.00 --top-k 64 --top-p 0.95 --no-warmup --port ${PORT} "gemma3-12b-novision": ttl: 600 cmd: | /app/llama-server -hf unsloth/gemma-3-12b-it-GGUF:Q4_K_M --ctx-size 16384 --n-gpu-layers 99 --prio 2 --temp 1.0 --repeat-penalty 1.0 --min-p 0.00 --top-k 64 --top-p 0.95 --no-mmproj --no-warmup --port ${PORT} "gemma3-12b-q2": ttl: 600 cmd: | /app/llama-server -hf unsloth/gemma-3-12b-it-GGUF:Q2_K_L --ctx-size 16384 --n-gpu-layers 99 --prio 2 --temp 1.0 --repeat-penalty 1.0 --min-p 0.00 --top-k 64 --top-p 0.95 --no-warmup --port ${PORT} "gemma3-4b": ttl: 600 cmd: | /app/llama-server -hf unsloth/gemma-3-4b-it-GGUF:Q4_K_M --ctx-size 16384 --n-gpu-layers 99 --prio 2 --temp 1.0 --repeat-penalty 1.0 --min-p 0.00 --top-k 64 --top-p 0.95 --no-warmup --port ${PORT} "gemma3-4b-novision": ttl: 600 cmd: | /app/llama-server -hf unsloth/gemma-3-4b-it-GGUF:Q4_K_M --ctx-size 16384 --n-gpu-layers 99 --prio 2 --temp 1.0 --repeat-penalty 1.0 --min-p 0.00 --top-k 64 --top-p 0.95 --no-mmproj --no-warmup --port ${PORT} "Qwen3-4B-Thinking-2507": ttl: 600 cmd: | /app/llama-server -hf unsloth/Qwen3-4B-Thinking-2507-GGUF:Q4_K_M --n-gpu-layers 99 --ctx-size 16384 --predict 8192 --temp 0.6 --min-p 0.00 --top-p 0.95 --top-k 20 --repeat-penalty 1.0 --no-warmup --port ${PORT} "Qwen3-4B-Thinking-2507-long-ctx": ttl: 600 cmd: | /app/llama-server -hf unsloth/Qwen3-4B-Thinking-2507-GGUF:Q4_K_M --n-gpu-layers 99 --ctx-size 262144 --predict 81920 --temp 0.6 --min-p 0.00 --top-p 0.95 --top-k 20 --repeat-penalty 1.0 --no-warmup --flash-attn auto --cache-type-k q8_0 --cache-type-v q8_0 --port ${PORT} "Qwen3-4B-Instruct-2507": ttl: 600 cmd: | /app/llama-server -hf unsloth/Qwen3-4B-Instruct-2507-GGUF:Q4_K_M --n-gpu-layers 99 --ctx-size 16384 --predict 8192 --temp 0.7 --min-p 0.00 --top-p 0.8 --top-k 20 --repeat-penalty 1.0 --no-warmup --port ${PORT} "Qwen3-4B-Instruct-2507-long-ctx": ttl: 600 cmd: | /app/llama-server -hf unsloth/Qwen3-4B-Instruct-2507-GGUF:Q4_K_M --n-gpu-layers 99 --ctx-size 262144 --predict 81920 --temp 0.7 --min-p 0.00 --top-p 0.8 --top-k 20 --repeat-penalty 1.0 --no-warmup --flash-attn auto --cache-type-k q8_0 --cache-type-v q8_0 --port ${PORT} "Qwen2.5-VL-32B-Instruct-GGUF-IQ1_S": ttl: 600 cmd: | /app/llama-server -hf unsloth/Qwen2.5-VL-32B-Instruct-GGUF:IQ1_S --n-gpu-layers 99 --ctx-size 16384 --predict 8192 --temp 0.7 --min-p 0.00 --top-p 0.8 --top-k 20 --repeat-penalty 1.0 --no-warmup --port ${PORT} "Qwen2.5-VL-32B-Instruct-GGUF-Q2_K_L": ttl: 600 cmd: | /app/llama-server -hf unsloth/Qwen2.5-VL-32B-Instruct-GGUF:Q2_K_L --n-gpu-layers 99 --ctx-size 16384 --predict 8192 --temp 0.7 --min-p 0.00 --top-p 0.8 --top-k 20 --repeat-penalty 1.0 --no-warmup --port ${PORT} "Qwen2.5-VL-7B-Instruct-GGUF": ttl: 600 cmd: | /app/llama-server -hf unsloth/Qwen2.5-VL-7B-Instruct-GGUF:Q4_K_M --n-gpu-layers 37 --ctx-size 16384 --predict 8192 --temp 0.7 --min-p 0.00 --top-p 0.8 --top-k 20 --repeat-penalty 1.0 --no-warmup --port ${PORT} "Qwen3-VL-2B-Instruct-GGUF": ttl: 600 cmd: | /app/llama-server -hf Qwen/Qwen3-VL-2B-Instruct-GGUF:Q8_0 --n-gpu-layers 99 --ctx-size 12288 --predict 4096 --flash-attn auto --jinja --temp 0.7 --top-p 0.85 --top-k 20 --min-p 0.05 --repeat-penalty 1.15 --frequency-penalty 0.5 --presence-penalty 0.4 --no-warmup --port ${PORT} "Qwen3-VL-4B-Instruct-GGUF": ttl: 600 cmd: | /app/llama-server -hf Qwen/Qwen3-VL-4B-Instruct-GGUF:Q8_0 --n-gpu-layers 99 --ctx-size 12288 --predict 4096 --flash-attn auto --jinja --temp 0.7 --top-p 0.85 --top-k 20 --min-p 0.05 --repeat-penalty 1.15 --frequency-penalty 0.5 --presence-penalty 0.4 --no-warmup --port ${PORT} "Qwen3-VL-8B-Instruct-GGUF": ttl: 600 cmd: | /app/llama-server -hf Qwen/Qwen3-VL-8B-Instruct-GGUF:Q4_K_M --n-gpu-layers 99 --ctx-size 12288 --predict 4096 --flash-attn auto --jinja --temp 0.7 --top-p 0.85 --top-k 20 --min-p 0.05 --repeat-penalty 1.15 --frequency-penalty 0.5 --presence-penalty 0.4 --no-warmup --port ${PORT} "Qwen3-VL-2B-Instruct-GGUF-unslothish": ttl: 600 cmd: | /app/llama-server -hf Qwen/Qwen3-VL-2B-Instruct-GGUF:Q8_0 --n-gpu-layers 99 --ctx-size 12288 --predict 4096 --flash-attn auto --jinja --temp 0.7 --top-p 0.8 --top-k 20 --min-p 0.05 --repeat-penalty 1.15 --frequency-penalty 0.5 --presence-penalty 0.6 --no-warmup --port ${PORT} "Qwen3-VL-4B-Instruct-GGUF-unslothish": ttl: 600 cmd: | /app/llama-server -hf Qwen/Qwen3-VL-4B-Instruct-GGUF:Q8_0 --n-gpu-layers 99 --ctx-size 12288 --predict 4096 --flash-attn auto --jinja --temp 0.7 --top-p 0.8 --top-k 20 --min-p 0.05 --repeat-penalty 1.15 --frequency-penalty 0.5 --presence-penalty 0.6 --no-warmup --port ${PORT} "Qwen3-VL-8B-Instruct-GGUF-unslothish": ttl: 600 cmd: | /app/llama-server -hf Qwen/Qwen3-VL-8B-Instruct-GGUF:Q4_K_M --n-gpu-layers 99 --ctx-size 12288 --predict 4096 --flash-attn auto --jinja --temp 0.7 --top-p 0.8 --top-k 20 --min-p 0.05 --repeat-penalty 1.15 --frequency-penalty 0.5 --presence-penalty 0.6 --no-warmup --port ${PORT} "Qwen3-VL-2B-Thinking-GGUF": ttl: 600 cmd: | /app/llama-server -hf Qwen/Qwen3-VL-2B-Thinking-GGUF:Q8_0 --n-gpu-layers 99 --ctx-size 12288 --predict 4096 --flash-attn auto --jinja --top-p 0.95 --top-k 20 --temp 1.0 --min-p 0.0 --repeat-penalty 1.0 --presence-penalty 0.0 --no-warmup --port ${PORT} "Qwen3-VL-4B-Thinking-GGUF": ttl: 600 cmd: | /app/llama-server -hf Qwen/Qwen3-VL-4B-Thinking-GGUF:Q4_K_M --n-gpu-layers 99 --ctx-size 12288 --predict 4096 --flash-attn auto --jinja --top-p 0.95 --top-k 20 --temp 1.0 --min-p 0.0 --repeat-penalty 1.0 --presence-penalty 0.0 --no-warmup --port ${PORT} "Qwen3-VL-8B-Thinking-GGUF": ttl: 600 cmd: | /app/llama-server -hf Qwen/Qwen3-VL-8B-Thinking-GGUF:Q4_K_M --n-gpu-layers 99 --ctx-size 12288 --predict 4096 --flash-attn auto --jinja --top-p 0.95 --top-k 20 --temp 1.0 --min-p 0.0 --repeat-penalty 1.0 --presence-penalty 0.0 --no-warmup --port ${PORT} "Huihui-Qwen3-VL-8B-Instruct-abliterated-GGUF": ttl: 600 cmd: | /app/llama-server -hf noctrex/Huihui-Qwen3-VL-8B-Instruct-abliterated-GGUF:Q6_K --n-gpu-layers 99 --ctx-size 12288 --predict 4096 --flash-attn auto --jinja --temp 0.7 --top-p 0.85 --top-k 20 --min-p 0.05 --repeat-penalty 1.15 --frequency-penalty 0.5 --presence-penalty 0.4 --no-warmup --port ${PORT} "Huihui-Qwen3-VL-8B-Thinking-abliterated-GGUF": ttl: 600 cmd: | /app/llama-server -hf noctrex/Huihui-Qwen3-VL-8B-Thinking-abliterated-GGUF:Q6_K --n-gpu-layers 99 --ctx-size 12288 --predict 4096 --flash-attn auto --jinja --temp 0.7 --top-p 0.85 --top-k 20 --min-p 0.05 --repeat-penalty 1.15 --frequency-penalty 0.5 --presence-penalty 0.4 --no-warmup --port ${PORT} "Qwen3-Coder-Next-GGUF:Q4_K_M": ttl: 600 cmd: | /app/llama-server -hf unsloth/Qwen3-Coder-Next-GGUF:Q4_K_M --ctx-size 32768 --predict 8192 --temp 1.0 --min-p 0.01 --top-p 0.95 --top-k 40 --repeat-penalty 1.0 --no-warmup --port ${PORT}