build_inp_attn_scale()

ngxson · ngxson · commit af1968c3547c · 2025-04-07T21:26:25.000+02:00
diff --git a/src/llama-graph.cpp b/src/llama-graph.cpp
@@ -1024,6 +1024,19 @@ ggml_tensor * llm_graph_context::build_inp_pos() const {
     return cur;
 }
 
+ggml_tensor * llm_graph_context::build_inp_attn_scale() const {
+    auto inp = std::make_unique<llm_graph_input_attn_temp>(n_pos_per_token());
+
+    auto & cur = inp->attn_scale;
+
+    cur = ggml_new_tensor_3d(ctx0, GGML_TYPE_F32, 1, 1, n_tokens*n_pos_per_token());
+    ggml_set_input(cur);
+
+    res->add_input(std::move(inp));
+
+    return cur;
+}
+
 ggml_tensor * llm_graph_context::build_inp_out_ids() const {
     auto inp = std::make_unique<llm_graph_input_out_ids>(hparams, cparams, n_outputs);
 
diff --git a/src/llama-graph.h b/src/llama-graph.h
@@ -487,6 +487,7 @@ struct llm_graph_context {
 
     ggml_tensor * build_inp_embd(ggml_tensor * tok_embd) const;
     ggml_tensor * build_inp_pos() const;
+    ggml_tensor * build_inp_attn_scale() const;
     ggml_tensor * build_inp_out_ids() const;
     ggml_tensor * build_inp_mean() const;
     ggml_tensor * build_inp_cls() const;
diff --git a/src/llama-model.cpp b/src/llama-model.cpp
@@ -4279,11 +4279,7 @@ struct llm_build_llama : public llm_graph_context {
         // temperature tuning
         ggml_tensor * inp_attn_scale = nullptr;
         if (arch == LLM_ARCH_LLAMA4) {
-            auto inp = std::make_unique<llm_graph_input_attn_temp>(n_pos_per_token(), hparams.n_attn_temp_floor_scale, hparams.f_attn_temp_scale);
-            inp_attn_scale = ggml_new_tensor_3d(ctx0, GGML_TYPE_F32, 1, 1, n_tokens*n_pos_per_token());
-            ggml_set_input(inp_attn_scale);
-            inp->attn_scale = inp_attn_scale;
-            res->add_input(std::move(inp));
+            inp_attn_scale = build_inp_attn_scale();
         }
 
         auto * inp_attn = build_attn_inp_kv_unified();