diff --git a/apps/librechat/release.yaml b/apps/librechat/release.yaml index 7b8fc20..1aa0095 100644 --- a/apps/librechat/release.yaml +++ b/apps/librechat/release.yaml @@ -57,7 +57,9 @@ spec: "Qwen3-4B-Thinking-2507-long-ctx", "Qwen2.5-VL-7B-Instruct-GGUF", "Qwen2.5-VL-32B-Instruct-GGUF-IQ1_S", - "Qwen2.5-VL-32B-Instruct-GGUF-Q2_K_L" + "Qwen2.5-VL-32B-Instruct-GGUF-Q2_K_L", + "Qwen3-VL-4B-Instruct-GGUF", + "Qwen3-VL-4B-Instruct-GGUF-unslothish" ] titleConvo: true titleModel: "gemma3-4b-novision" @@ -65,6 +67,16 @@ spec: summaryModel: "gemma3-4b-novision" forcePrompt: false modelDisplayLabel: "Llama.cpp" + + # ✨ IMPORTANT: let llama-swap/llama-server own all these + dropParams: + - "temperature" + - "top_p" + - "top_k" + - "presence_penalty" + - "frequency_penalty" + - "stop" + - "max_tokens" imageVolume: enabled: true size: 10G diff --git a/apps/llama/configs/config.yaml b/apps/llama/configs/config.yaml index d577735..76e00b4 100644 --- a/apps/llama/configs/config.yaml +++ b/apps/llama/configs/config.yaml @@ -5,212 +5,284 @@ models: ttl: 600 cmd: | /app/llama-server - -hf unsloth/DeepSeek-R1-0528-Qwen3-8B-GGUF:Q4_K_M - -ngl 37 -c 16384 - --no-warmup - --port ${PORT} + -hf unsloth/DeepSeek-R1-0528-Qwen3-8B-GGUF:Q4_K_M + --n-gpu-layers 37 + --ctx-size 16384 + --no-warmup + --port ${PORT} + "Qwen3-8B-GGUF": ttl: 600 cmd: | /app/llama-server - -hf unsloth/Qwen3-8B-GGUF:Q4_K_M - -ngl 37 -c 16384 - --no-warmup - --port ${PORT} + -hf unsloth/Qwen3-8B-GGUF:Q4_K_M + --n-gpu-layers 37 + --ctx-size 16384 + --no-warmup + --port ${PORT} + "Qwen3-8B-GGUF-no-thinking": ttl: 600 cmd: | /app/llama-server - -hf unsloth/Qwen3-8B-GGUF:Q4_K_M - -ngl 37 -c 16384 - --jinja --chat-template-file /config/qwen_nothink_chat_template.jinja - --no-warmup - --port ${PORT} + -hf unsloth/Qwen3-8B-GGUF:Q4_K_M + --n-gpu-layers 37 + --ctx-size 16384 + --jinja + --chat-template-file /config/qwen_nothink_chat_template.jinja + --no-warmup + --port ${PORT} + "gemma3n-e4b": ttl: 600 cmd: | /app/llama-server - -hf unsloth/gemma-3n-E4B-it-GGUF:UD-Q4_K_XL - --ctx-size 16384 - --n-gpu-layers 99 - --seed 3407 - --prio 2 - --temp 1.0 - --repeat-penalty 1.0 - --min-p 0.00 - --top-k 64 - --top-p 0.95 - --no-warmup - --port ${PORT} + -hf unsloth/gemma-3n-E4B-it-GGUF:UD-Q4_K_XL + --ctx-size 16384 + --n-gpu-layers 99 + --seed 3407 + --prio 2 + --temp 1.0 + --repeat-penalty 1.0 + --min-p 0.00 + --top-k 64 + --top-p 0.95 + --no-warmup + --port ${PORT} + "gemma3-12b": ttl: 600 cmd: | /app/llama-server - -hf unsloth/gemma-3-12b-it-GGUF:Q4_K_M - --ctx-size 16384 - --n-gpu-layers 99 - --prio 2 - --temp 1.0 - --repeat-penalty 1.0 - --min-p 0.00 - --top-k 64 - --top-p 0.95 - --no-warmup - --port ${PORT} + -hf unsloth/gemma-3-12b-it-GGUF:Q4_K_M + --ctx-size 16384 + --n-gpu-layers 99 + --prio 2 + --temp 1.0 + --repeat-penalty 1.0 + --min-p 0.00 + --top-k 64 + --top-p 0.95 + --no-warmup + --port ${PORT} + "gemma3-12b-novision": ttl: 600 cmd: | /app/llama-server - -hf unsloth/gemma-3-12b-it-GGUF:Q4_K_M - --ctx-size 16384 - --n-gpu-layers 99 - --prio 2 - --temp 1.0 - --repeat-penalty 1.0 - --min-p 0.00 - --top-k 64 - --top-p 0.95 - --no-mmproj - --no-warmup - --port ${PORT} + -hf unsloth/gemma-3-12b-it-GGUF:Q4_K_M + --ctx-size 16384 + --n-gpu-layers 99 + --prio 2 + --temp 1.0 + --repeat-penalty 1.0 + --min-p 0.00 + --top-k 64 + --top-p 0.95 + --no-mmproj + --no-warmup + --port ${PORT} + "gemma3-12b-q2": ttl: 600 cmd: | /app/llama-server - -hf unsloth/gemma-3-12b-it-GGUF:Q2_K_L - --ctx-size 16384 - --n-gpu-layers 99 - --prio 2 - --temp 1.0 - --repeat-penalty 1.0 - --min-p 0.00 - --top-k 64 - --top-p 0.95 - --no-warmup - --port ${PORT} + -hf unsloth/gemma-3-12b-it-GGUF:Q2_K_L + --ctx-size 16384 + --n-gpu-layers 99 + --prio 2 + --temp 1.0 + --repeat-penalty 1.0 + --min-p 0.00 + --top-k 64 + --top-p 0.95 + --no-warmup + --port ${PORT} + "gemma3-4b": ttl: 600 cmd: | /app/llama-server - -hf unsloth/gemma-3-4b-it-GGUF:Q4_K_M - --ctx-size 16384 - --n-gpu-layers 99 - --prio 2 - --temp 1.0 - --repeat-penalty 1.0 - --min-p 0.00 - --top-k 64 - --top-p 0.95 - --no-warmup - --port ${PORT} + -hf unsloth/gemma-3-4b-it-GGUF:Q4_K_M + --ctx-size 16384 + --n-gpu-layers 99 + --prio 2 + --temp 1.0 + --repeat-penalty 1.0 + --min-p 0.00 + --top-k 64 + --top-p 0.95 + --no-warmup + --port ${PORT} + "gemma3-4b-novision": ttl: 600 cmd: | /app/llama-server - -hf unsloth/gemma-3-4b-it-GGUF:Q4_K_M - --ctx-size 16384 - --n-gpu-layers 99 - --prio 2 - --temp 1.0 - --repeat-penalty 1.0 - --min-p 0.00 - --top-k 64 - --top-p 0.95 - --no-mmproj - --no-warmup - --port ${PORT} + -hf unsloth/gemma-3-4b-it-GGUF:Q4_K_M + --ctx-size 16384 + --n-gpu-layers 99 + --prio 2 + --temp 1.0 + --repeat-penalty 1.0 + --min-p 0.00 + --top-k 64 + --top-p 0.95 + --no-mmproj + --no-warmup + --port ${PORT} + "Qwen3-4B-Thinking-2507": ttl: 600 cmd: | /app/llama-server - -hf unsloth/Qwen3-4B-Thinking-2507-GGUF:Q4_K_M - -ngl 99 -c 16384 --predict 8192 - --temp 0.6 - --min-p 0.00 - --top-p 0.95 - --top-k 20 - --repeat-penalty 1.0 - --no-warmup - --port ${PORT} + -hf unsloth/Qwen3-4B-Thinking-2507-GGUF:Q4_K_M + --n-gpu-layers 99 + --ctx-size 16384 + --predict 8192 + --temp 0.6 + --min-p 0.00 + --top-p 0.95 + --top-k 20 + --repeat-penalty 1.0 + --no-warmup + --port ${PORT} + "Qwen3-4B-Thinking-2507-long-ctx": ttl: 600 cmd: | /app/llama-server - -hf unsloth/Qwen3-4B-Thinking-2507-GGUF:Q4_K_M - -ngl 99 -c 262144 --predict 81920 - --temp 0.6 - --min-p 0.00 - --top-p 0.95 - --top-k 20 - --repeat-penalty 1.0 - --no-warmup - --flash-attn - --cache-type-k q8_0 --cache-type-v q8_0 - --port ${PORT} + -hf unsloth/Qwen3-4B-Thinking-2507-GGUF:Q4_K_M + --n-gpu-layers 99 + --ctx-size 262144 + --predict 81920 + --temp 0.6 + --min-p 0.00 + --top-p 0.95 + --top-k 20 + --repeat-penalty 1.0 + --no-warmup + --flash-attn auto + --cache-type-k q8_0 + --cache-type-v q8_0 + --port ${PORT} + "Qwen3-4B-Instruct-2507": ttl: 600 cmd: | /app/llama-server - -hf unsloth/Qwen3-4B-Instruct-2507-GGUF:Q4_K_M - -ngl 99 -c 16384 --predict 8192 - --temp 0.7 - --min-p 0.00 - --top-p 0.8 - --top-k 20 - --repeat-penalty 1.0 - --no-warmup - --port ${PORT} + -hf unsloth/Qwen3-4B-Instruct-2507-GGUF:Q4_K_M + --n-gpu-layers 99 + --ctx-size 16384 + --predict 8192 + --temp 0.7 + --min-p 0.00 + --top-p 0.8 + --top-k 20 + --repeat-penalty 1.0 + --no-warmup + --port ${PORT} + "Qwen3-4B-Instruct-2507-long-ctx": ttl: 600 cmd: | /app/llama-server - -hf unsloth/Qwen3-4B-Instruct-2507-GGUF:Q4_K_M - -ngl 99 -c 262144 --predict 81920 - --temp 0.7 - --min-p 0.00 - --top-p 0.8 - --top-k 20 - --repeat-penalty 1.0 - --no-warmup - --flash-attn - --cache-type-k q8_0 --cache-type-v q8_0 - --port ${PORT} + -hf unsloth/Qwen3-4B-Instruct-2507-GGUF:Q4_K_M + --n-gpu-layers 99 + --ctx-size 262144 + --predict 81920 + --temp 0.7 + --min-p 0.00 + --top-p 0.8 + --top-k 20 + --repeat-penalty 1.0 + --no-warmup + --flash-attn auto + --cache-type-k q8_0 + --cache-type-v q8_0 + --port ${PORT} + "Qwen2.5-VL-32B-Instruct-GGUF-IQ1_S": ttl: 600 cmd: | /app/llama-server - -hf unsloth/Qwen2.5-VL-32B-Instruct-GGUF:IQ1_S - -ngl 99 -c 16384 --predict 8192 - --temp 0.7 - --min-p 0.00 - --top-p 0.8 - --top-k 20 - --repeat-penalty 1.0 - --no-warmup - --port ${PORT} + -hf unsloth/Qwen2.5-VL-32B-Instruct-GGUF:IQ1_S + --n-gpu-layers 99 + --ctx-size 16384 + --predict 8192 + --temp 0.7 + --min-p 0.00 + --top-p 0.8 + --top-k 20 + --repeat-penalty 1.0 + --no-warmup + --port ${PORT} + "Qwen2.5-VL-32B-Instruct-GGUF-Q2_K_L": ttl: 600 cmd: | /app/llama-server - -hf unsloth/Qwen2.5-VL-32B-Instruct-GGUF:Q2_K_L - -ngl 99 -c 16384 --predict 8192 - --temp 0.7 - --min-p 0.00 - --top-p 0.8 - --top-k 20 - --repeat-penalty 1.0 - --no-warmup - --port ${PORT} + -hf unsloth/Qwen2.5-VL-32B-Instruct-GGUF:Q2_K_L + --n-gpu-layers 99 + --ctx-size 16384 + --predict 8192 + --temp 0.7 + --min-p 0.00 + --top-p 0.8 + --top-k 20 + --repeat-penalty 1.0 + --no-warmup + --port ${PORT} + "Qwen2.5-VL-7B-Instruct-GGUF": ttl: 600 cmd: | /app/llama-server - -hf unsloth/Qwen2.5-VL-7B-Instruct-GGUF:Q4_K_M - -ngl 37 -c 16384 --predict 8192 - --temp 0.7 - --min-p 0.00 - --top-p 0.8 - --top-k 20 - --repeat-penalty 1.0 - --no-warmup - --port ${PORT} + -hf unsloth/Qwen2.5-VL-7B-Instruct-GGUF:Q4_K_M + --n-gpu-layers 37 + --ctx-size 16384 + --predict 8192 + --temp 0.7 + --min-p 0.00 + --top-p 0.8 + --top-k 20 + --repeat-penalty 1.0 + --no-warmup + --port ${PORT} + + "Qwen3-VL-4B-Instruct-GGUF": + ttl: 600 + cmd: | + /app/llama-server + -hf unsloth/Qwen3-VL-4B-Instruct-GGUF:Q4_K_M + --n-gpu-layers 99 + --ctx-size 12288 + --predict 4096 + --flash-attn auto + --jinja + --top-p 0.95 + --top-k 20 + --temp 1.0 + --min-p 0.05 + --repeat-penalty 1.0 + --presence-penalty 0.0 + --no-warmup + --port ${PORT} + + "Qwen3-VL-4B-Instruct-GGUF-unslothish": + ttl: 600 + cmd: | + /app/llama-server + -hf unsloth/Qwen3-VL-4B-Instruct-GGUF:Q4_K_M + --n-gpu-layers 99 + --ctx-size 12288 + --predict 4096 + --flash-attn auto + --jinja + --top-p 0.8 + --top-k 20 + --temp 0.7 + --min-p 0.0 + --presence-penalty 0.7 + --no-warmup + --port ${PORT}