cont : make deepseek2 consistent

ggerganov · ggerganov · commit 0ca55b610eb8 · 2025-12-12T11:42:00.000+02:00
diff --git a/src/llama-model.cpp b/src/llama-model.cpp
@@ -1635,7 +1635,12 @@ void llama_model::load_hparams(llama_model_loader & ml) {
                     // that have no expert_gating_func model parameter set
                     hparams.expert_gating_func = LLAMA_EXPERT_GATING_FUNC_TYPE_SOFTMAX;
                 }
+
                 ml.get_key(LLM_KV_ROPE_SCALING_YARN_LOG_MUL, hparams.rope_yarn_log_mul, 0.0f);
+                if (hparams.rope_yarn_log_mul == 0.1f) {
+                    LLAMA_LOG_WARN("%s: detected old-style YaRN RoPE scaling - overriding to 1.0f\n", __func__);
+                    hparams.rope_yarn_log_mul = 1.0f;
+                }
 
                 // (optional) temperature tuning - used by mistral-large
                 ml.get_key(LLM_KV_ATTENTION_TEMPERATURE_SCALE,  hparams.f_attn_temp_scale,       false);
diff --git a/src/models/deepseek2.cpp b/src/models/deepseek2.cpp
@@ -20,7 +20,8 @@ llm_build_deepseek2::llm_build_deepseek2(const llama_model & model, const llm_gr
 
     // We have to pre-scale kq_scale and attn_factor to make the YaRN RoPE work correctly.
     // See https://github.com/ggerganov/llama.cpp/discussions/7416 for detailed explanation.
-    const float mscale   = attn_factor * (1.0f + hparams.rope_yarn_log_mul * logf(1.0f / freq_scale));
+    // And also: https://github.com/ggml-org/llama.cpp/pull/17945
+    const float mscale   = attn_factor * (1.0f + 0.1f * hparams.rope_yarn_log_mul * logf(1.0f / freq_scale));
     const float kq_scale = 1.0f * mscale * mscale / sqrtf(float(n_embd_head_k));
 
     ggml_tensor * cur;