Fix Flex 2 inpaint

stduhpf · stduhpf · commit ae83c5a88e24 · 2025-05-26T19:34:00.000+02:00
diff --git a/ggml_extend.hpp b/ggml_extend.hpp
@@ -375,18 +375,31 @@ __STATIC_INLINE__ void sd_mask_to_tensor(const uint8_t* image_data,
 
 __STATIC_INLINE__ void sd_apply_mask(struct ggml_tensor* image_data,
                                      struct ggml_tensor* mask,
-                                     struct ggml_tensor* output) {
+                                     struct ggml_tensor* output,
+                                     float masked_value = 0.5f) {
     int64_t width    = output->ne[0];
     int64_t height   = output->ne[1];
     int64_t channels = output->ne[2];
+    for (int ix = 0; ix < mask->ne[0]; ix++) {
+        for (int iy = 0; iy < mask->ne[1]; iy++) {
+            float m = ggml_tensor_get_f32(mask, ix, iy);
+            m       = round(m);  // inpaint models need binary masks
+            ggml_tensor_set_f32(mask, m, ix, iy);
+        }
+    }
+    float rescale_mx = mask->ne[0]/output->ne[0];
+    float rescale_my = mask->ne[1]/output->ne[1];
     GGML_ASSERT(output->type == GGML_TYPE_F32);
     for (int ix = 0; ix < width; ix++) {
         for (int iy = 0; iy < height; iy++) {
-            float m = ggml_tensor_get_f32(mask, ix, iy);
+            int mx = (int)(ix * rescale_mx);
+            int my = (int)(iy * rescale_my);
+            float m = ggml_tensor_get_f32(mask, mx, my);
             m       = round(m);  // inpaint models need binary masks
-            ggml_tensor_set_f32(mask, m, ix, iy);
+            ggml_tensor_set_f32(mask, m, mx, my);
             for (int k = 0; k < channels; k++) {
-                float value = (1 - m) * (ggml_tensor_get_f32(image_data, ix, iy, k) - .5) + .5;
+                float value = ggml_tensor_get_f32(image_data, ix, iy, k);
+                value = (1 - m) * (value - masked_value) + masked_value;
                 ggml_tensor_set_f32(output, value, ix, iy, k);
             }
         }
diff --git a/stable-diffusion.cpp b/stable-diffusion.cpp
@@ -1477,10 +1477,10 @@ sd_image_t* generate_image(sd_ctx_t* sd_ctx,
     LOG_INFO("sampling using %s method", sampling_methods_str[sample_method]);
 
     struct ggml_tensor* control_latent = NULL;
-    if(sd_version_is_control(sd_ctx->sd->version) && image_hint != NULL){
+    if (sd_version_is_control(sd_ctx->sd->version) && image_hint != NULL) {
         if (!sd_ctx->sd->use_tiny_autoencoder) {
             struct ggml_tensor* control_moments = sd_ctx->sd->encode_first_stage(work_ctx, image_hint);
-            control_latent                     = sd_ctx->sd->get_first_stage_encoding(work_ctx, control_moments);
+            control_latent                      = sd_ctx->sd->get_first_stage_encoding(work_ctx, control_moments);
         } else {
             control_latent = sd_ctx->sd->encode_first_stage(work_ctx, image_hint);
         }
@@ -1560,7 +1560,7 @@ sd_image_t* generate_image(sd_ctx_t* sd_ctx,
         }
         LOG_INFO("HERE");
 
-        cond.c_concat     = concat_latent;
+        cond.c_concat = concat_latent;
     }
 
     for (int b = 0; b < batch_count; b++) {
@@ -1827,16 +1827,23 @@ sd_image_t* img2img(sd_ctx_t* sd_ctx,
         } else if (sd_ctx->sd->version == VERSION_FLEX_2) {
             mask_channels = 1 + init_latent->ne[2];
         }
-        ggml_tensor* masked_img = ggml_new_tensor_4d(work_ctx, GGML_TYPE_F32, width, height, 3, 1);
-        // Restore init_img (encode_first_stage has side effects) TODO: remove the side effects?
-        sd_image_to_tensor(init_image.data, init_img);
-        sd_apply_mask(init_img, mask_img, masked_img);
         ggml_tensor* masked_latent_0 = NULL;
-        if (!sd_ctx->sd->use_tiny_autoencoder) {
-            ggml_tensor* moments = sd_ctx->sd->encode_first_stage(work_ctx, masked_img);
-            masked_latent_0      = sd_ctx->sd->get_first_stage_encoding(work_ctx, moments);
+        if (sd_ctx->sd->version != VERSION_FLEX_2) {
+            // most inpaint models mask before vae
+            ggml_tensor* masked_img = ggml_new_tensor_4d(work_ctx, GGML_TYPE_F32, width, height, 3, 1);
+            // Restore init_img (encode_first_stage has side effects) TODO: remove the side effects?
+            sd_image_to_tensor(init_image.data, init_img);
+            sd_apply_mask(init_img, mask_img, masked_img);
+            if (!sd_ctx->sd->use_tiny_autoencoder) {
+                ggml_tensor* moments = sd_ctx->sd->encode_first_stage(work_ctx, masked_img);
+                masked_latent_0      = sd_ctx->sd->get_first_stage_encoding(work_ctx, moments);
+            } else {
+                masked_latent_0 = sd_ctx->sd->encode_first_stage(work_ctx, masked_img);
+            }
         } else {
-            masked_latent_0 = sd_ctx->sd->encode_first_stage(work_ctx, masked_img);
+            // mask after vae
+            masked_latent_0 = ggml_new_tensor_4d(work_ctx, GGML_TYPE_F32, init_latent->ne[0], init_latent->ne[1], init_latent->ne[2], 1);
+            sd_apply_mask(init_latent, mask_img, masked_latent_0, 0.);
         }
         concat_latent = ggml_new_tensor_4d(work_ctx, GGML_TYPE_F32, masked_latent_0->ne[0], masked_latent_0->ne[1], mask_channels + masked_latent_0->ne[2], 1);
         for (int ix = 0; ix < masked_latent_0->ne[0]; ix++) {