Support Flex-2

stduhpf · stduhpf · commit 835180ff5caf · 2025-05-26T19:33:59.000+02:00
diff --git a/examples/cli/main.cpp b/examples/cli/main.cpp
@@ -933,7 +933,7 @@ int main(int argc, const char* argv[]) {
     }
 
     sd_image_t* control_image = NULL;
-    if (params.controlnet_path.size() > 0 && params.control_image_path.size() > 0) {
+    if (params.control_image_path.size() > 0) {
         int c                = 0;
         control_image_buffer = stbi_load(params.control_image_path.c_str(), &params.width, &params.height, &c, 3);
         if (control_image_buffer == NULL) {
diff --git a/flux.hpp b/flux.hpp
@@ -793,7 +793,8 @@ namespace Flux {
                                     struct ggml_tensor* y,
                                     struct ggml_tensor* guidance,
                                     struct ggml_tensor* pe,
-                                    std::vector<int> skip_layers = std::vector<int>()) {
+                                    std::vector<int> skip_layers = std::vector<int>(),
+                                    SDVersion version            = VERSION_FLUX) {
             // Forward pass of DiT.
             // x: (N, C, H, W) tensor of spatial inputs (images or latent representations of images)
             // timestep: (N,) tensor of diffusion timesteps
@@ -817,7 +818,8 @@ namespace Flux {
             // img = rearrange(x, "b c (h ph) (w pw) -> b (h w) (c ph pw)", ph=patch_size, pw=patch_size)
             auto img = patchify(ctx, x, patch_size);  // [N, h*w, C * patch_size * patch_size]
 
-            if (c_concat != NULL) {
+            if (version == VERSION_FLUX_FILL) {
+                GGML_ASSERT(c_concat != NULL);
                 ggml_tensor* masked = ggml_view_4d(ctx, c_concat, c_concat->ne[0], c_concat->ne[1], C, 1, c_concat->nb[1], c_concat->nb[2], c_concat->nb[3], 0);
                 ggml_tensor* mask   = ggml_view_4d(ctx, c_concat, c_concat->ne[0], c_concat->ne[1], 8 * 8, 1, c_concat->nb[1], c_concat->nb[2], c_concat->nb[3], c_concat->nb[2] * C);
 
@@ -828,6 +830,21 @@ namespace Flux {
                 mask   = patchify(ctx, mask, patch_size);
 
                 img = ggml_concat(ctx, img, ggml_concat(ctx, masked, mask, 0), 0);
+            } else if (version == VERSION_FLEX_2) {
+                GGML_ASSERT(c_concat != NULL);
+                ggml_tensor* masked  = ggml_view_4d(ctx, c_concat, c_concat->ne[0], c_concat->ne[1], C, 1, c_concat->nb[1], c_concat->nb[2], c_concat->nb[3], 0);
+                ggml_tensor* mask    = ggml_view_4d(ctx, c_concat, c_concat->ne[0], c_concat->ne[1], 1, 1, c_concat->nb[1], c_concat->nb[2], c_concat->nb[3], c_concat->nb[2] * C);
+                ggml_tensor* control = ggml_view_4d(ctx, c_concat, c_concat->ne[0], c_concat->ne[1], C, 1, c_concat->nb[1], c_concat->nb[2], c_concat->nb[3], c_concat->nb[2] * (C + 1));
+
+                masked  = ggml_pad(ctx, masked, pad_w, pad_h, 0, 0);
+                mask    = ggml_pad(ctx, mask, pad_w, pad_h, 0, 0);
+                control = ggml_pad(ctx, control, pad_w, pad_h, 0, 0);
+
+                masked  = patchify(ctx, masked, patch_size);
+                mask    = patchify(ctx, mask, patch_size);
+                control = patchify(ctx, control, patch_size);
+
+                img = ggml_concat(ctx, img, ggml_concat(ctx, ggml_concat(ctx, masked, mask, 0), control, 0), 0);
             }
 
             auto out = forward_orig(ctx, img, context, timestep, y, guidance, pe, skip_layers);  // [N, h*w, C * patch_size * patch_size]
@@ -846,19 +863,22 @@ namespace Flux {
         FluxParams flux_params;
         Flux flux;
         std::vector<float> pe_vec;  // for cache
+        SDVersion version;
 
         FluxRunner(ggml_backend_t backend,
                    std::map<std::string, enum ggml_type>& tensor_types = empty_tensor_types,
                    const std::string prefix                            = "",
                    SDVersion version                                   = VERSION_FLUX,
                    bool flash_attn                                     = false)
-            : GGMLRunner(backend) {
+            : GGMLRunner(backend), version(version) {
             flux_params.flash_attn          = flash_attn;
             flux_params.guidance_embed      = false;
             flux_params.depth               = 0;
             flux_params.depth_single_blocks = 0;
             if (version == VERSION_FLUX_FILL) {
                 flux_params.in_channels = 384;
+            } else if (version == VERSION_FLEX_2) {
+                flux_params.in_channels = 196;
             }
             for (auto pair : tensor_types) {
                 std::string tensor_name = pair.first;
@@ -941,7 +961,8 @@ namespace Flux {
                                                    y,
                                                    guidance,
                                                    pe,
-                                                   skip_layers);
+                                                   skip_layers,
+                                                   version);
 
             ggml_build_forward_expand(gf, out);
 
diff --git a/model.cpp b/model.cpp
@@ -1555,6 +1555,9 @@ SDVersion ModelLoader::get_sd_version() {
         if (is_inpaint) {
             return VERSION_FLUX_FILL;
         }
+        if(input_block_weight.ne[0] == 196){
+            return VERSION_FLEX_2;
+        }
         return VERSION_FLUX;
     }
 
diff --git a/model.h b/model.h
@@ -31,11 +31,12 @@ enum SDVersion {
     VERSION_SD3,
     VERSION_FLUX,
     VERSION_FLUX_FILL,
+    VERSION_FLEX_2,
     VERSION_COUNT,
 };
 
 static inline bool sd_version_is_flux(SDVersion version) {
-    if (version == VERSION_FLUX || version == VERSION_FLUX_FILL) {
+    if (version == VERSION_FLUX || version == VERSION_FLUX_FILL || version == VERSION_FLEX_2 ) {
         return true;
     }
     return false;
@@ -70,7 +71,7 @@ static inline bool sd_version_is_sdxl(SDVersion version) {
 }
 
 static inline bool sd_version_is_inpaint(SDVersion version) {
-    if (version == VERSION_SD1_INPAINT || version == VERSION_SD2_INPAINT || version == VERSION_SDXL_INPAINT || version == VERSION_FLUX_FILL) {
+    if (version == VERSION_SD1_INPAINT || version == VERSION_SD2_INPAINT || version == VERSION_SDXL_INPAINT || version == VERSION_FLUX_FILL || version == VERSION_FLEX_2) {
         return true;
     }
     return false;
diff --git a/stable-diffusion.cpp b/stable-diffusion.cpp
@@ -95,7 +95,7 @@ class StableDiffusionGGML {
     std::shared_ptr<DiffusionModel> diffusion_model;
     std::shared_ptr<AutoEncoderKL> first_stage_model;
     std::shared_ptr<TinyAutoEncoder> tae_first_stage;
-    std::shared_ptr<ControlNet> control_net;
+    std::shared_ptr<ControlNet> control_net = NULL;
     std::shared_ptr<PhotoMakerIDEncoder> pmid_model;
     std::shared_ptr<LoraModel> pmid_lora;
     std::shared_ptr<PhotoMakerIDEmbed> pmid_id_embeds;
@@ -301,6 +301,11 @@ class StableDiffusionGGML {
             // TODO: shift_factor
         }
 
+        if(version == VERSION_FLEX_2){
+            // Might need vae encode for control cond
+            vae_decode_only = false;
+        }
+
         if (version == VERSION_SVD) {
             clip_vision = std::make_shared<FrozenCLIPVisionEmbedder>(backend, model_loader.tensor_storages_types);
             clip_vision->alloc_params_buffer();
@@ -898,7 +903,7 @@ class StableDiffusionGGML {
 
             std::vector<struct ggml_tensor*> controls;
 
-            if (control_hint != NULL) {
+            if (control_hint != NULL && control_net != NULL) {
                 control_net->compute(n_threads, noised_input, control_hint, timesteps, cond.c_crossattn, cond.c_vector);
                 controls = control_net->controls;
                 // print_ggml_tensor(controls[12]);
@@ -935,7 +940,7 @@ class StableDiffusionGGML {
             float* negative_data = NULL;
             if (has_unconditioned) {
                 // uncond
-                if (control_hint != NULL) {
+                if (control_hint != NULL && control_net != NULL) {
                     control_net->compute(n_threads, noised_input, control_hint, timesteps, uncond.c_crossattn, uncond.c_vector);
                     controls = control_net->controls;
                 }
@@ -1283,7 +1288,7 @@ sd_image_t* generate_image(sd_ctx_t* sd_ctx,
                            float style_ratio,
                            bool normalize_input,
                            std::string input_id_images_path,
-                           ggml_tensor* masked_latent = NULL) {
+                           ggml_tensor* concat_latent = NULL) {
     if (seed < 0) {
         // Generally, when using the provided command line, the seed is always >0.
         // However, to prevent potential issues if 'stable-diffusion.cpp' is invoked as a library
@@ -1475,6 +1480,8 @@ sd_image_t* generate_image(sd_ctx_t* sd_ctx,
         int64_t mask_channels = 1;
         if (sd_ctx->sd->version == VERSION_FLUX_FILL) {
             mask_channels = 8 * 8;  // flatten the whole mask
+        } else if (sd_ctx->sd->version == VERSION_FLEX_2) {
+            mask_channels = 1 + init_latent->ne[2];
         }
         auto empty_latent = ggml_new_tensor_4d(work_ctx, GGML_TYPE_F32, init_latent->ne[0], init_latent->ne[1], mask_channels + init_latent->ne[2], 1);
         // no mask, set the whole image as masked
@@ -1488,6 +1495,11 @@ sd_image_t* generate_image(sd_ctx_t* sd_ctx,
                     for (int64_t c = init_latent->ne[2]; c < empty_latent->ne[2]; c++) {
                         ggml_tensor_set_f32(empty_latent, 1, x, y, c);
                     }
+                } else if (sd_ctx->sd->version == VERSION_FLEX_2) {
+                    for (int64_t c = 0; c < empty_latent->ne[2]; c++) {
+                        // 0x16,1x1,0x16
+                        ggml_tensor_set_f32(empty_latent, c == init_latent->ne[2], x, y, c);
+                    }
                 } else {
                     ggml_tensor_set_f32(empty_latent, 1, x, y, 0);
                     for (int64_t c = 1; c < empty_latent->ne[2]; c++) {
@@ -1496,19 +1508,48 @@ sd_image_t* generate_image(sd_ctx_t* sd_ctx,
                 }
             }
         }
-        if (masked_latent == NULL) {
-            masked_latent = empty_latent;
+        if (sd_ctx->sd->version == VERSION_FLEX_2 && image_hint != NULL && sd_ctx->sd->control_net == NULL) {
+            bool no_inpaint = concat_latent == NULL;
+            if (no_inpaint) {
+                concat_latent = ggml_new_tensor_4d(work_ctx, GGML_TYPE_F32, init_latent->ne[0], init_latent->ne[1], mask_channels + init_latent->ne[2], 1);
+            }
+            // fill in the control image here
+            struct ggml_tensor* control_latents = NULL;
+            if (!sd_ctx->sd->use_tiny_autoencoder) {
+                struct ggml_tensor* control_moments = sd_ctx->sd->encode_first_stage(work_ctx, image_hint);
+                control_latents                     = sd_ctx->sd->get_first_stage_encoding(work_ctx, control_moments);
+            } else {
+                control_latents = sd_ctx->sd->encode_first_stage(work_ctx, image_hint);
+            }
+            for (int64_t x = 0; x < concat_latent->ne[0]; x++) {
+                for (int64_t y = 0; y < concat_latent->ne[1]; y++) {
+                    if (no_inpaint) {
+                        for (int64_t c = 0; c < concat_latent->ne[2] - control_latents->ne[2]; c++) {
+                            // 0x16,1x1,0x16
+                            ggml_tensor_set_f32(concat_latent, c == init_latent->ne[2], x, y, c);
+                        }
+                    }
+                    for (int64_t c = 0; c < control_latents->ne[2]; c++) {
+                        float v = ggml_tensor_get_f32(control_latents, x, y, c);
+                        ggml_tensor_set_f32(concat_latent, v, x, y, concat_latent->ne[2] - control_latents->ne[2] + c);
+                    }
+                }
+            }
+            // Disable controlnet
+            image_hint = NULL;
+        } else if (concat_latent == NULL) {
+            concat_latent = empty_latent;
         }
-        cond.c_concat   = masked_latent;
+        cond.c_concat   = concat_latent;
         uncond.c_concat = empty_latent;
-        // noise_mask = masked_latent;
+        // noise_mask = concat_latent;
     } else if (sd_version_is_edit(sd_ctx->sd->version)) {
-        cond.c_concat     = masked_latent;
-        auto empty_latent = ggml_new_tensor_4d(work_ctx, GGML_TYPE_F32, masked_latent->ne[0], masked_latent->ne[1], masked_latent->ne[2], masked_latent->ne[3]);
+        cond.c_concat     = concat_latent;
+        auto empty_latent = ggml_new_tensor_4d(work_ctx, GGML_TYPE_F32, concat_latent->ne[0], concat_latent->ne[1], concat_latent->ne[2], concat_latent->ne[3]);
         ggml_set_f32(empty_latent, 0);
         uncond.c_concat = empty_latent;
     } else {
-        noise_mask = masked_latent;
+        noise_mask = concat_latent;
     }
 
     for (int b = 0; b < batch_count; b++) {
@@ -1756,7 +1797,7 @@ sd_image_t* img2img(sd_ctx_t* sd_ctx,
 
     sd_image_to_tensor(init_image.data, init_img);
 
-    ggml_tensor* masked_latent;
+    ggml_tensor* concat_latent;
 
     ggml_tensor* init_latent  = NULL;
     ggml_tensor* init_moments = NULL;
@@ -1771,6 +1812,8 @@ sd_image_t* img2img(sd_ctx_t* sd_ctx,
         int64_t mask_channels = 1;
         if (sd_ctx->sd->version == VERSION_FLUX_FILL) {
             mask_channels = 8 * 8;  // flatten the whole mask
+        } else if (sd_ctx->sd->version == VERSION_FLEX_2) {
+            mask_channels = 1 + init_latent->ne[2];
         }
         ggml_tensor* masked_img = ggml_new_tensor_4d(work_ctx, GGML_TYPE_F32, width, height, 3, 1);
         // Restore init_img (encode_first_stage has side effects) TODO: remove the side effects?
@@ -1783,56 +1826,82 @@ sd_image_t* img2img(sd_ctx_t* sd_ctx,
         } else {
             masked_latent_0 = sd_ctx->sd->encode_first_stage(work_ctx, masked_img);
         }
-        masked_latent = ggml_new_tensor_4d(work_ctx, GGML_TYPE_F32, masked_latent_0->ne[0], masked_latent_0->ne[1], mask_channels + masked_latent_0->ne[2], 1);
+        concat_latent = ggml_new_tensor_4d(work_ctx, GGML_TYPE_F32, masked_latent_0->ne[0], masked_latent_0->ne[1], mask_channels + masked_latent_0->ne[2], 1);
         for (int ix = 0; ix < masked_latent_0->ne[0]; ix++) {
             for (int iy = 0; iy < masked_latent_0->ne[1]; iy++) {
                 int mx = ix * 8;
                 int my = iy * 8;
                 if (sd_ctx->sd->version == VERSION_FLUX_FILL) {
                     for (int k = 0; k < masked_latent_0->ne[2]; k++) {
                         float v = ggml_tensor_get_f32(masked_latent_0, ix, iy, k);
-                        ggml_tensor_set_f32(masked_latent, v, ix, iy, k);
+                        ggml_tensor_set_f32(concat_latent, v, ix, iy, k);
                     }
                     // "Encode" 8x8 mask chunks into a flattened 1x64 vector, and concatenate to masked image
                     for (int x = 0; x < 8; x++) {
                         for (int y = 0; y < 8; y++) {
                             float m = ggml_tensor_get_f32(mask_img, mx + x, my + y);
                             // TODO: check if the way the mask is flattened is correct (is it supposed to be x*8+y or x+8*y?)
                             // python code was using "b (h 8) (w 8) -> b (8 8) h w"
-                            ggml_tensor_set_f32(masked_latent, m, ix, iy, masked_latent_0->ne[2] + x * 8 + y);
+                            ggml_tensor_set_f32(concat_latent, m, ix, iy, masked_latent_0->ne[2] + x * 8 + y);
                         }
                     }
+                } else if (sd_ctx->sd->version == VERSION_FLEX_2) {
+                    float m = ggml_tensor_get_f32(mask_img, mx, my);
+                    // masked image
+                    for (int k = 0; k < masked_latent_0->ne[2]; k++) {
+                        float v = ggml_tensor_get_f32(masked_latent_0, ix, iy, k);
+                        ggml_tensor_set_f32(concat_latent, v, ix, iy, k);
+                    }
+                    // downsampled mask
+                    ggml_tensor_set_f32(concat_latent, m, ix, iy, masked_latent_0->ne[2]);
+                    // control (todo: support this)
+                    for (int k = 0; k < masked_latent_0->ne[2]; k++) {
+                        ggml_tensor_set_f32(concat_latent, 0, ix, iy, masked_latent_0->ne[2] + 1 + k);
+                    }
+                } else if (sd_ctx->sd->version == VERSION_FLEX_2) {
+                    float m = ggml_tensor_get_f32(mask_img, mx, my);
+                    // masked image
+                    for (int k = 0; k < masked_latent_0->ne[2]; k++) {
+                        float v = ggml_tensor_get_f32(masked_latent_0, ix, iy, k);
+                        ggml_tensor_set_f32(concat_latent, v, ix, iy, k);
+                    }
+                    // downsampled mask
+                    ggml_tensor_set_f32(concat_latent, m, ix, iy, masked_latent_0->ne[2]);
+                    // control (todo: support this)
+                    for (int k = 0; k < masked_latent_0->ne[2]; k++) {
+                        ggml_tensor_set_f32(concat_latent, 0, ix, iy, masked_latent_0->ne[2] + 1 + k);
+                    }
                 } else {
                     float m = ggml_tensor_get_f32(mask_img, mx, my);
-                    ggml_tensor_set_f32(masked_latent, m, ix, iy, 0);
+                    ggml_tensor_set_f32(concat_latent, m, ix, iy, 0);
                     for (int k = 0; k < masked_latent_0->ne[2]; k++) {
                         float v = ggml_tensor_get_f32(masked_latent_0, ix, iy, k);
-                        ggml_tensor_set_f32(masked_latent, v, ix, iy, k + mask_channels);
+                        ggml_tensor_set_f32(concat_latent, v, ix, iy, k + mask_channels);
                     }
                 }
             }
         }
     } else if (sd_version_is_edit(sd_ctx->sd->version)) {
-        // Not actually masked, we're just highjacking the masked_latent variable since it will be used the same way
+        // Not actually masked, we're just highjacking the concat_latent variable since it will be used the same way
         if (!sd_ctx->sd->use_tiny_autoencoder) {
             if (sd_ctx->sd->is_using_edm_v_parameterization) {
                 // for CosXL edit
-                masked_latent = sd_ctx->sd->get_first_stage_encoding(work_ctx, init_moments);
+                concat_latent = sd_ctx->sd->get_first_stage_encoding(work_ctx, init_moments);
             } else {
-                masked_latent = sd_ctx->sd->get_first_stage_encoding_mode(work_ctx, init_moments);
+                concat_latent = sd_ctx->sd->get_first_stage_encoding_mode(work_ctx, init_moments);
             }
         } else {
-            masked_latent = init_latent;
+            concat_latent = init_latent;
         }
     } else {
         // LOG_WARN("Inpainting with a base model is not great");
-        masked_latent = ggml_new_tensor_4d(work_ctx, GGML_TYPE_F32, width / 8, height / 8, 1, 1);
-        for (int ix = 0; ix < masked_latent->ne[0]; ix++) {
-            for (int iy = 0; iy < masked_latent->ne[1]; iy++) {
+        concat_latent = ggml_new_tensor_4d(work_ctx, GGML_TYPE_F32, width / 8, height / 8, 1, 1);
+        for (int ix = 0; ix < concat_latent->ne[0]; ix++) {
+            for (int iy = 0; iy < concat_latent->ne[1]; iy++) {
                 int mx  = ix * 8;
                 int my  = iy * 8;
                 float m = ggml_tensor_get_f32(mask_img, mx, my);
-                ggml_tensor_set_f32(masked_latent, m, ix, iy);
+                ggml_tensor_set_f32(concat_latent, m, ix, iy);
             }
         }
     }
@@ -1868,7 +1937,7 @@ sd_image_t* img2img(sd_ctx_t* sd_ctx,
                                                style_ratio,
                                                normalize_input,
                                                input_id_images_path_c_str,
-                                               masked_latent);
+                                               concat_latent);
 
     size_t t2 = ggml_time_ms();
 
diff --git a/vae.hpp b/vae.hpp
@@ -559,6 +559,7 @@ struct AutoEncoderKL : public GGMLRunner {
                  bool decode_graph,
                  struct ggml_tensor** output,
                  struct ggml_context* output_ctx = NULL) {
+        GGML_ASSERT(!decode_only || decode_graph);
         auto get_graph = [&]() -> struct ggml_cgraph* {
             return build_graph(z, decode_graph);
         };

Original file line number	Diff line number	Diff line change
`@@ -933,7 +933,7 @@ int main(int argc, const char* argv[]) {`
`933`	`933`	`}`
`934`	`934`
`935`	`935`	`sd_image_t* control_image = NULL;`
`936`		`- if (params.controlnet_path.size() > 0 && params.control_image_path.size() > 0) {`
	`936`	`+ if (params.control_image_path.size() > 0) {`
`937`	`937`	`int c = 0;`
`938`	`938`	`control_image_buffer = stbi_load(params.control_image_path.c_str(), &params.width, &params.height, &c, 3);`
`939`	`939`	`if (control_image_buffer == NULL) {`
Original file line number	Diff line number	Diff line change
`@@ -1555,6 +1555,9 @@ SDVersion ModelLoader::get_sd_version() {`
`1555`	`1555`	`if (is_inpaint) {`
`1556`	`1556`	`return VERSION_FLUX_FILL;`
`1557`	`1557`	`}`
	`1558`	`+ if(input_block_weight.ne[0] == 196){`
	`1559`	`+ return VERSION_FLEX_2;`
	`1560`	`+ }`
`1558`	`1561`	`return VERSION_FLUX;`
`1559`	`1562`	`}`
`1560`	`1563`