fix: Split MoE fused tensors for shared experts in conversion

gabe-l-hart · gabe-l-hart · commit 5a98306a2d7c · 2025-05-02T10:18:00.000-06:00
Branch: GraniteMoEShared

Signed-off-by: Gabe Goodhart &lt;ghart@us.ibm.com&gt;
diff --git a/convert_hf_to_gguf.py b/convert_hf_to_gguf.py
@@ -5675,6 +5675,24 @@ def set_gguf_parameters(self):
             self.gguf_writer.add_expert_shared_feed_forward_length(shared_feed_forward_length)
             logger.info("gguf: (granitemoeshared) shared_feed_forward_length = %s", shared_feed_forward_length)
 
+    def modify_tensors(self, data_torch: Tensor, name: str, bid: int | None) -> Iterable[tuple[str, Tensor]]:
+        """In modeling_granitemoeshared, the implementation of parallel experts
+        is used. This essentially merges w1 and w3 into a single tensor with 2x
+        the hidden size that is then split during forward. To keep compatibility
+        with existing shared expert support, we pull them apart here.
+        """
+
+        if name.endswith("shared_mlp.input_linear.weight"):
+            ffn_dim = self.hparams["shared_intermediate_size"]
+            assert data_torch.shape[-2] == 2 * ffn_dim, "Merged FFN tensor size must be 2 * shared_intermediate_size"
+            gate, up = data_torch[..., :ffn_dim, :], data_torch[..., ffn_dim:, :]
+            return [
+                (self.format_tensor_name(gguf.MODEL_TENSOR.FFN_GATE_SHEXP, bid), gate),
+                (self.format_tensor_name(gguf.MODEL_TENSOR.FFN_UP_SHEXP, bid), up),
+            ]
+
+        return super().modify_tensors(data_torch, name, bid)
+
 
 @ModelBase.register("BailingMoeForCausalLM")
 class BailingMoeModel(TextModel):
diff --git a/gguf-py/gguf/constants.py b/gguf-py/gguf/constants.py
@@ -1910,6 +1910,7 @@ class MODEL_TENSOR(IntEnum):
         MODEL_TENSOR.FFN_GATE_EXP,
         MODEL_TENSOR.FFN_DOWN_EXP,
         MODEL_TENSOR.FFN_UP_EXP,
+        MODEL_TENSOR.FFN_GATE_SHEXP,
         MODEL_TENSOR.FFN_UP_SHEXP,
         MODEL_TENSOR.FFN_DOWN_SHEXP,
     ],
diff --git a/gguf-py/gguf/tensor_mapping.py b/gguf-py/gguf/tensor_mapping.py
@@ -346,7 +346,6 @@ class TensorNameMap:
             "model.layers.{bid}.mlp.shared_expert.up_proj",  # qwen2moe
             "model.layers.{bid}.mlp.shared_experts.up_proj", # deepseek deepseek2
             "language_model.model.layers.{bid}.feed_forward.shared_expert.up_proj", # llama4
-            "model.layers.{bid}.shared_mlp.input_linear",    # granitemoeshared
         ),
 
         # AWQ-activation gate