change convert and use GLMModel instead of GLMForCasualLM

zRzRzRzRzRzRzR · zRzRzRzRzRzRzR · commit 19d7d27c38cc · 2025-02-27T16:02:43.000+08:00
diff --git a/examples/cogview4-control/train_control_cogview4.py b/examples/cogview4-control/train_control_cogview4.py
@@ -660,7 +660,7 @@ def prepare_train_dataset(dataset, accelerator):
         [
             transforms.Resize((args.resolution, args.resolution), interpolation=transforms.InterpolationMode.BILINEAR),
             transforms.ToTensor(),
-            transforms.Normalize(mean=[0.5, 0.5, 0.5], std=[0.5, 0.5, 0.5]),
+            transforms.Lambda(lambda x: x * 2 - 1)
         ]
     )
 
diff --git a/scripts/convert_cogview4_to_diffusers_megatron.py b/scripts/convert_cogview4_to_diffusers_megatron.py
@@ -25,7 +25,7 @@
 
 import torch
 from tqdm import tqdm
-from transformers import GlmForCausalLM, PreTrainedTokenizerFast
+from transformers import GlmModel, PreTrainedTokenizerFast
 
 from diffusers import AutoencoderKL, CogView4Pipeline, CogView4Transformer2DModel, FlowMatchEulerDiscreteScheduler
 from diffusers.loaders.single_file_utils import convert_ldm_vae_checkpoint
@@ -326,7 +326,7 @@ def main(args):
     # Load the text encoder and tokenizer
     text_encoder_id = "THUDM/glm-4-9b-hf"
     tokenizer = PreTrainedTokenizerFast.from_pretrained(text_encoder_id)
-    text_encoder = GlmForCausalLM.from_pretrained(
+    text_encoder = GlmModel.from_pretrained(
         text_encoder_id,
         cache_dir=args.text_encoder_cache_dir,
         torch_dtype=torch.bfloat16 if args.dtype == "bf16" else torch.float32,
diff --git a/src/diffusers/pipelines/cogview4/pipeline_cogview4.py b/src/diffusers/pipelines/cogview4/pipeline_cogview4.py
@@ -215,7 +215,7 @@ def _get_glm_embeds(
             )
             text_input_ids = torch.cat([pad_ids, text_input_ids], dim=1)
         prompt_embeds = self.text_encoder(
-            text_input_ids.to(self.text_encoder.model.device), output_hidden_states=True
+            text_input_ids.to(self.text_encoder.device), output_hidden_states=True
         ).hidden_states[-2]
 
         prompt_embeds = prompt_embeds.to(dtype=dtype, device=device)
diff --git a/src/diffusers/pipelines/cogview4/pipeline_cogview4_control.py b/src/diffusers/pipelines/cogview4/pipeline_cogview4_control.py
@@ -219,7 +219,7 @@ def _get_glm_embeds(
             )
             text_input_ids = torch.cat([pad_ids, text_input_ids], dim=1)
         prompt_embeds = self.text_encoder(
-            text_input_ids.to(self.text_encoder.model.device), output_hidden_states=True
+            text_input_ids.to(self.text_encoder.device), output_hidden_states=True
         ).hidden_states[-2]
 
         prompt_embeds = prompt_embeds.to(dtype=dtype, device=device)

Original file line number	Diff line number	Diff line change
`@@ -660,7 +660,7 @@ def prepare_train_dataset(dataset, accelerator):`
`660`	`660`	`[`
`661`	`661`	`transforms.Resize((args.resolution, args.resolution), interpolation=transforms.InterpolationMode.BILINEAR),`
`662`	`662`	`transforms.ToTensor(),`
`663`		`- transforms.Normalize(mean=[0.5, 0.5, 0.5], std=[0.5, 0.5, 0.5]),`
	`663`	`+ transforms.Lambda(lambda x: x * 2 - 1)`
`664`	`664`	`]`
`665`	`665`	`)`
`666`	`666`
Original file line number	Diff line number	Diff line change
`@@ -215,7 +215,7 @@ def _get_glm_embeds(`
`215`	`215`	`)`
`216`	`216`	`text_input_ids = torch.cat([pad_ids, text_input_ids], dim=1)`
`217`	`217`	`prompt_embeds = self.text_encoder(`
`218`		`- text_input_ids.to(self.text_encoder.model.device), output_hidden_states=True`
	`218`	`+ text_input_ids.to(self.text_encoder.device), output_hidden_states=True`
`219`	`219`	`).hidden_states[-2]`
`220`	`220`
`221`	`221`	`prompt_embeds = prompt_embeds.to(dtype=dtype, device=device)`
Original file line number	Diff line number	Diff line change
`@@ -219,7 +219,7 @@ def _get_glm_embeds(`
`219`	`219`	`)`
`220`	`220`	`text_input_ids = torch.cat([pad_ids, text_input_ids], dim=1)`
`221`	`221`	`prompt_embeds = self.text_encoder(`
`222`		`- text_input_ids.to(self.text_encoder.model.device), output_hidden_states=True`
	`222`	`+ text_input_ids.to(self.text_encoder.device), output_hidden_states=True`
`223`	`223`	`).hidden_states[-2]`
`224`	`224`
`225`	`225`	`prompt_embeds = prompt_embeds.to(dtype=dtype, device=device)`