FLUX.2 深度教程：用 Gradio 打造你的胶囊衣橱可视化工具

FLUX.2 是一个很新的文本到图像模型，它特别擅长生成高质量且可控的图像。在这篇文章里，我打算带大家玩转 FLUX.2-dev 这个变体，一起动手搭建一个“胶囊衣橱可视化工具”。简单来说，就是你上传 2 到 10 张衣服图片（衬衫、裤子、外套、鞋子啥的都行），模型会智能组合这些单品，然后吐给你一个搭配网格，帮你直观地看到各种穿搭可能。

这个工具能让你以一种互动的方式探索服装搭配，而且它背后跑的是一个对 GPU 内存优化过的扩散模型，效率还挺高。如果你对背后的原理感兴趣，我推荐你去看看 DataCamp 的《PyTorch 图像深度学习》课程，会有更深入的讲解。

FLUX.2 是个什么玩意儿？

FLUX.2 其实是一个模型家族，不是一个单一的模型检查点。它针对质量、速度和灵活性这些不同维度做了优化。它带来了一些挺重要的能力：

多图引用支持：你能同时给它 10 张参考图。这在生成一系列产品图时，对保持产品一致性特别关键。
图像细节和真实感：相比以前的版本，FLUX.2 在细节表现和真实感上有了显著提升，几乎能跟真实照片媲美。
文字渲染：它的 Pro 和 Flex 版本在处理复杂排版、信息图表和 UI 样机时表现出色。
指令遵循能力增强：FLUX.2 对结构化、多部分指令的理解更好了，这在我们需要描述特定姿势、光照和风格时非常有用。
世界知识与空间逻辑：它对真实世界的物体、光照和构图有了更深层的理解，所以生成的场景也更合理。

实际应用中，你通常会碰到三个核心版本：

FLUX.2-Pro：这是保真度最高的版本，速度稍慢，适合对图像质量要求极高，而非迭代速度的生产级渲染。
FLUX.2-Flex：这是一个平衡型版本，质量不错，同时延迟和显存占用更友好。主要用于通用图像生成。
FLUX.2-Dev：这个是实验性版本，更方便代码级别的折腾，适合我们用来做演示。

跟 Pro 和 Flex 比起来，Dev 版本就是专门为那些想尝鲜、想做实验的人设计的，这正是我们打造交互式胶囊衣橱网格所需要的。

为啥要选 FLUX.2-Dev (4 比特)？

原版 FLUX.2 系列已经很强大了，但 FLUX.2-Dev 加上 4 比特量化后，这个演示项目就变得好运行、好迭代、好扩展多了。原因如下：

专为实验而生：Dev 版本能直接跟我们的自定义 Python 逻辑、多图条件生成以及 Gradio UI 无缝对接，不需要额外太多代码。
显存受控：4 比特权重把参数内存从 FP16/BF16 大概削减了 3 到 4 倍，这让我们的模型跑起来很从容：
- 3x3 的图像批量处理
- 20-30 个扩散步数
- 中高分辨率，比如 512×384 到 768×512，即便在单块 A100 上也不会出现显存溢出（OOM）问题。
快速迭代：模型更轻量，我们就能反复调整随机种子、步数、引导强度、网格大小和分辨率，然后快速重新生成衣橱网格。
交互式网格的优秀质量：即使是 Dev 版本，这个模型也已经证明了它能生成影棚级的时尚照片，光照一致，布料质感真实可信。这正是我们 3x3 搭配网格所需要的，而不是单一的“英雄图”。当然，实际效果可能因人而异，要达到这种质量通常需要仔细的提示词工程、精心挑选参考图片（光照/角度/背景一致）以及可能的后期过滤。

总而言之，FLUX.2-Dev (4 比特) 为我们这个交互式胶囊衣橱工具提供了内存、速度和质量的最佳平衡。

FLUX.2 演示概览：胶囊衣橱可视化工具

这一节，我们来用 FLUX 2 模型和 Gradio 应用搭建一个胶囊衣橱可视化工具。从宏观上看，这个应用主要干三件事：

接收多张衣物图片作为参考。
构建一个结构化的提示词，指导 FLUX.2-dev 使用这些衣物生成全身时尚照。
通过随机组合每块网格中的衣物，生成一个搭配网格，同时支持调整网格大小（行 × 列）、扩散步数和引导尺度。

下面的视频简单演示了工作流程。为了演示效果，视频播放速度有所加快（实际生成过程可能需要几分钟）：

步骤 1: 环境搭建

首先，安装 GitHub 上最新的 diffusers 库和其他依赖。

!pip install -q "git+https://github.com/huggingface/diffusers.git@main" \
               "transformers>=4.44.0" accelerate safetensors bitsandbytes gradio pillow

接着，登录 Hugging Face，这样你才能拉取 4 比特的 FLUX.2-dev 权重：

from huggingface_hub import login
login()

按照指示输入你的 HF Token 并登录。然后，快速检查一下 CUDA 是否可用以及当前使用的是哪个 GPU：

import torch, diffusers, bitsandbytes as bnb
print("diffusers:", diffusers.__version__)
print("CUDA available:", torch.cuda.is_available())
!nvidia-smi

如果 nvidia-smi 输出中能看到你的 GPU，并且 CUDA available: True，那就没问题了。

步骤 2: FLUX.2-dev (4 比特) 模型

现在我们从 diffusers/FLUX.2-dev-bnb-4bit 仓库加载 4 比特的 FLUX.2-dev 组件。

from diffusers import Flux2Pipeline, Flux2Transformer2DModel
from transformers import Mistral3ForConditionalGeneration
import torch

bnb_repo = "diffusers/FLUX.2-dev-bnb-4bit"   
torch_dtype = torch.bfloat16
device = "cuda"

print("Loading 4-bit transformer...")
transformer = Flux2Transformer2DModel.from_pretrained(
    bnb_repo,
    subfolder="transformer",
    torch_dtype=torch_dtype,
    device_map="auto",          
)

print("Loading 4-bit text encoder...")
text_encoder = Mistral3ForConditionalGeneration.from_pretrained(
    bnb_repo,
    subfolder="text_encoder",
    torch_dtype=torch_dtype,
    device_map="auto",
)

print("Building Flux2 pipeline...")
pipe = Flux2Pipeline.from_pretrained(
    bnb_repo,
    transformer=transformer,
    text_encoder=text_encoder,
    torch_dtype=torch_dtype,
).to(device)

pipe.set_progress_bar_config(disable=False)
print("Loaded. Example param device:", next(pipe.transformer.parameters()).device)

依赖安装好之后，我们就可以用 diffusers 库加载 FLUX.2，并搭配 transformers 库中的 Mistral 3 文本编码器。代码里是这样实现的：

Flux2Transformer2DModel：这是核心的、类似 U-Net 的 Transformer，负责去噪过程，以 4 比特量化形式加载。
Mistral3ForConditionalGeneration：这个模型作为文本编码器，把你的文本提示词转换成扩散过程的条件信号。
Flux2Pipeline：这个管线把 Transformer、文本编码器和其它支持组件组合成一个单一的、可调用的图像生成接口。

使用 device_map="auto" 和 torch_dtype=torch.bfloat16 让它能在不同的 GPU 设置下保持灵活性，同时还能节省内存。

步骤 3: 图像预处理

这个应用允许用户上传多张衣物图片。我们需要一些辅助工具来完成：

把 Gradio 文件对象转换成 PIL 图像
把它们调整到适合作为条件图像的大小

import gradio as gr
import random, json
from typing import List, Union
from PIL import Image

MAX_REFS = 10

def files_to_pil(files: List[Union[str, dict]]) -> List[Image.Image]:
    images = []
    for f in files:
        path = f.get("name") if isinstance(f, dict) else f
        if not path:
            continue
        img = Image.open(path).convert("RGB")
        images.append(img)
    return images

def preprocess_refs(refs: List[Image.Image], max_size: int = 512) -> List[Image.Image]:
    processed = []
    for img in refs:
        img = img.convert("RGB")
        img.thumbnail((max_size, max_size), Image.LANCZOS)
        processed.append(img)
    return processed

上面这段代码定义了两个关键的辅助函数。

files_to_pil() 函数会接收 Gradio 返回的文件对象，提取它们的路径，然后把每个文件作为 RGB PIL.Image 打开。
preprocess_refs() 函数将这些图片按比例缩放到最大 512 × 512 的尺寸，同时保持其长宽比。这对生成速度和内存使用都挺重要。

此外，我们用 MAX_REFS = 10 限制了参考图片的数量，这样能避免条件集合过载。

步骤 4: 搭配提示词

我没有简单地发送一个扁平的文本提示词，而是构建了一个结构化的、类似 JSON 的提示词，它描述了：

影棚的设置
模特和姿势
搭配单品（链接到参考图）
光照、氛围和相机信息

def build_outfit_prompt(outfit_indices: List[int], labels: List[str]) -> str:
    item_phrases = [
        f"{(labels[idx])} from reference image {(idx+1)}" for idx in outfit_indices
    ]
    outfit_items_str = ", ".join(item_phrases)

    mistral_prompt = """A professional full-body studio photograph of a high-end fashion editorial shoot, set against a flawless seamless neutral gray backdrop (#f5f5f5) in a controlled studio environment. The scene is bathed in soft, diffused three-point lighting (key, fill, and subtle rim) that eliminates harsh shadows, ensuring even illumination across the subject while preserving dimensionality and texture.
At the center of the frame stands a full-body adult model, exuding quiet confidence in a relaxed yet poised stance—one foot slightly forward, weight balanced, body angled subtly to the right. The model’s expression is natural, with a neutral gaze directed just off-camera, evoking a modern, minimalist lookbook aesthetic.
The outfit—meticulously styled and tailored—is the focal point, captured with ultra-realistic 8K resolution and razor-sharp detail. Fabrics display tactile depth: the weave of knits, the drape of silks, the sheen of leathers, and the crispness of cotton are all rendered with commercial-grade precision. The shallow depth of field (50mm prime lens, f/2.8) keeps the subject in crystalline focus while softly blurring the backdrop, emphasizing the outfit’s textures and proportions.
The composition adheres to classic fashion photography rules: vertical framing, ample headroom, and a slightly dynamic angle (eye-level) that flatters the model’s posture. The color palette is controlled and sophisticated, dominated by the outfit’s hues against the neutral gray, with subtle tonal contrasts to highlight layers and accessories.
Every element—from the studio-quality lighting to the catalog-ready styling—conveys luxury, clarity, and commercial appeal, designed to showcase the outfit as a covetable, high-end ensemble."""

    prompt_dict = {
        "scene": mistral_prompt,
        "subjects": [
            {
                "description": (
                    "The model is styled in an outfit composed of: "
                    + outfit_items_str
                    + ". Each garment should closely match the color, fabric, and key design details of its reference image."
                )
            }
        ]
    }
    return json.dumps(prompt_dict)

build_outfit_prompt() 函数做了三件重要的事情：

首先，它利用 outfit_indices 和 labels 生成诸如“参考图片 1 中的衣物 1”这样的短语，然后把它们组合成一个字符串，描述这次搭配所选的具体衣物。
其次，它把这些衣物嵌入到一个自然语言的 mistral_prompt 中，这个提示词详细定义了影棚环境、灯光设置、相机镜头、景深等等。
最后，我们将所有内容打包到一个包含 scene 和 subjects 字段的 prompt_dict 里，然后将这个字典序列化成 JSON 格式，作为一个单独的提示字符串传递给管线。

从概念上讲，我们将每张上传的衣物图片都视为一个“衣物单品 i”，并要求模型“使用衣物单品 1、衣物单品 3 和衣物单品 4 搭配一套衣服”，同时还要保留每件单品的颜色、面料和关键设计细节。

注意：因为我们在这个管线中使用了 Mistral 模型作为文本编码器，所以我在起草长段的影棚描述提示词（mistral_prompt）时，也通过元提示（Meta prompting）请 Mistral 帮了忙。这能让提示词的风格与编码器“预期”的保持一致，也方便我直接在代码中调整措辞。

步骤 5: 生成衣橱网格

这个演示的核心是 capsule_fn，它的任务是：

接收用户上传的图片和 UI 参数
为每个网格单元格随机选择衣物子集
然后调用 FLUX.2-dev 管线生成多张图片
最后，把这些图片拼成一个完整的网格

def make_grid(images: List[Image.Image], rows: int, cols: int) -> Image.Image:
    w, h = images[0].size
    grid = Image.new("RGB", (cols * w, rows * h), (255, 255, 255))
    for idx, img in enumerate(images):
        r, c = divmod(idx, cols)
        grid.paste(img, (c * w, r * h))
    return grid

def capsule_fn(files, rows, cols, height, width, steps, guidance, seed):
    if not files or len(files) < 2:
        return None
    
    images = files_to_pil(files)
    images = images[:MAX_REFS]
    refs = preprocess_refs(images, max_size=512)
    labels = [f"wardrobe piece {i+1}" for i in range(len(refs))]

    random.seed(int(seed))
    tiles = []
    num_tiles = rows * cols

    for i in range(num_tiles):
        k = min(len(refs), random.randint(2, 3))
        outfit_idxs = random.sample(range(len(refs)), k=k)
        prompt = build_outfit_prompt(outfit_idxs, labels)
        generator = torch.Generator(device=device).manual_seed(int(seed) + i)
        
        out = pipe(
            prompt=prompt,
            image=refs,   
            height=height,
            width=width,
            num_inference_steps=steps,
            guidance_scale=guidance,
            generator=generator,
        )
        tiles.append(out.images[0])
    
    grid = make_grid(tiles, rows, cols)
    return grid

上面这两个函数构成了胶囊衣橱演示的核心引擎。

make_grid() 函数会创建一个空白画布，大小足以容纳行 × 列布局，然后将每张生成的搭配图片粘贴到正确的位置，最终生成一张单一的网格图片。
capsule_fn() 函数将用户的衣物图片准备为参考图，为每个网格单元随机选择 2-3 件衣物，构建结构化的搭配提示词，并调用 FLUX.2 管线，设置好分辨率、步数、引导尺度和种子。它会收集所有生成的单元格，然后把它们传递给 make_grid() 函数，这样用户就能看到一个最终的混搭衣物网格了。

步骤 6: Gradio UI

这一步是将胶囊衣橱引擎连接到 Gradio 应用。用户上传衣物图片，选择网格和生成设置，然后就能得到一个组合好的搭配网格。

inputs = [
    gr.File(file_types=["image"], file_count="multiple", label="Wardrobe pieces (2–10 images)"),
    gr.Slider(1, 4, value=2, step=1, label="Grid rows"),
    gr.Slider(1, 4, value=2, step=1, label="Grid cols"),
    gr.Slider(384, 896, value=512, step=64, label="Image height"),
    gr.Slider(256, 640, value=384, step=64, label="Image width"),
    gr.Slider(10, 30, value=16, step=2, label="Diffusion steps"),
    gr.Slider(1.0, 7.0, value=2.5, step=0.5, label="Guidance scale"),
    gr.Number(value=42, precision=0, label="Seed")
]

iface = gr.Interface(
    fn=capsule_fn,
    inputs=inputs,
    outputs=gr.Image(type="pil", label="Capsule wardrobe grid"),
    title="Capsule Wardrobe Visualizer – FLUX.2-dev (4-bit)",
    description="Upload 2–10 product images; mix & match outfits using FLUX.2-dev with multi-image reference.",
)

iface.launch(share=True, debug = True)

我们是这样构建 Gradio 应用的：

inputs 列表定义了应用中所有的交互式控件。衣物单品输入是一个支持 2-10 张衣物或商品照片的多文件上传组件，而行和列滑块则设定了网格的形状，进而决定了每批生成多少套搭配。
图像高度和图像宽度滑块控制着每个单元格的分辨率，数值越高，消耗的显存和时间也越多。
扩散步数滑块决定了模型运行的去噪步数（16-24 是个不错的默认值），引导尺度则控制模型对文本提示词的遵循强度，以及对参考图的依赖程度。
gr.Interface 调用将这些输入连接到 capsule_fn 函数，并声明一个单一的 gr.Image 输出。launch(share=True, debug=True) 调用启动 Gradio 服务器，暴露一个公开可共享的链接供演示使用，并开启控制台调试日志，方便诊断任何问题。

一旦界面上线：

上传少量衣物（比如 2 件衬衫，2 条裤子，1 件外套，1 双鞋）。
选择 3x3 或 2x2 网格，分辨率设为 512x384，大约 20 步，引导尺度设为 2.5。
点击 Submit，然后看着网格被一张张杂志风格的图片填充。

FLUX.2 示例与观察

为了弄明白 FLUX.2-dev 在实际中的表现，我用最终的应用程序做了几个小实验。我改变了扩散步数和引导尺度，并且尝试了同一个服装的多张图片，以及每件独特服装一张图片这两种情况，看看模型能生成多少种变化。

扩散步数和引导尺度主要影响速度和清晰度，而非内存。把扩散步数从 28 增加到 30，引导尺度从 2.5 增加到 5.0，显存使用量基本保持不变，但每批次处理速度会稍慢一些，同时生成更清晰的搭配。然而，理论上高步数（比如 50）可能会显著改变网格的外观，并且会增加生成延迟以换取更高质量的输出。
在 A100 上，4 比特似乎是一个非常舒适的默认选择。使用 4 比特 FLUX.2-dev 检查点，3x3 网格在 512x384 分辨率下，大约 20-28 步，感觉对于单 GPU 演示来说又快又稳。如果你能用上 H100，并且能加载原始的（未量化的）检查点，通常可以在相似的延迟下获得更高的图像质量。当然，你的实际体验可能会因显存和批处理大小而异。

示例 1: 默认设置下，同一件衣服多角度拍摄

我首先上传了同一套衣服从不同角度拍摄的几张照片，保持默认的扩散步数和适中的引导尺度。模型生成了光照和布料细节一致的影棚级照片，搭配出来的效果就像是同一胶囊系列的不同变体。

示例 2: 提高扩散步数，同一件衣服多角度拍摄

接着，我用了相同的参考图，但将扩散步数增加到 28（并略微调整了引导尺度）。网格变得更清晰、更精致了一些，但主要还是在重新组合那几件核心衣物。代价是每个批次的生成时间略有增加，但这也能接受。

实验 3: 每件独特衣物一张图片

最后，我为每件不同的衣物上传了一张产品照，并生成了另一个 3x3 网格。这次生成的搭配在不同单元格之间变化要大得多，以有趣的方式混搭了不同的上衣和下装。虽然仍然出现了一些重复，但总体而言，这个网格更接近一个真正的胶囊衣橱，在相同的随机种子和设置下，搭配组合显得更多样化。

总结

我觉得，FLUX.2-dev 的 4 比特版本在图像应用上表现非常出色。这次教程中，我们用 diffusers 搭建了一个 4 比特 FLUX.2-dev 管线，并且构建了一个多图引用工作流，把衣物单品作为条件提示，最后把所有东西都集成到了一个 Gradio 应用里。

最终成果是一个很棒的胶囊衣橱可视化工具。它不仅能作为时尚电商工具的原型，也能单纯是好玩儿的，用来重新混搭你自己的衣柜。下一步，你可以把这个管线接入更广阔的智能体系统，比如一个根据着装要求或天气推荐服装的 LLM，或者直接连接到真实的商品目录后端。

FLUX.2 常见问题解答

我能不依赖本地 Mistral 文本编码器来使用 FLUX.2-Dev (4 比特) 管线吗？

可以。FLUX.2 支持通过 Hugging Face 的文本编码器服务进行远程文本编码，这能显著降低显存使用。你可以不用在本地加载 Mistral3ForConditionalGeneration，而是传递从远程编码器获取的 prompt_embeds。这对于显存较小的 GPU（比如 RTX 4090 或移动 GPU）会很有用。

我的衣物参考照片应该如何格式化或准备才能获得最佳效果？

虽然模型能接受各种图像，但当满足以下条件时效果会更好：

衣物照片背景干净整洁
图片光照良好，大致是正面拍摄
衣物没有被严重遮挡
所有物品都有相似的构图（比如居中拍摄的产品图）

FLUX.2 能确保搭配总是包含一件上衣、一件下装和一双鞋吗？

默认情况下不行。模型不理解“衣物类别”，除非你明确地对它们进行编码并在你的应用中强制执行选择逻辑。

你可以通过以下方式强制执行结构：

使用像“参考图像 1 中的上衣”、“参考图像 2 中的下装”这样的标签
或者在 capsule_fn 中添加基于规则的选择逻辑

如何防止衣物在生成的图像中融合或变形？

多图引用模式可能导致物品融合，如果出现以下情况：

衣物看起来相似
你传递了许多参考图（8-10 张）
或者你的提示词过于模糊。

要减少融合：

每个单元格使用更少的参考图（最多 2-3 张）。
用描述性语言强化提示词，比如“清晰分明的层次”、“不融合”、“保留轮廓”。
确保参考照片在形状/颜色上有明显区别。

FLUX.2 在质量下降之前实际能处理多少张参考图片？

FLUX.2 最多支持 10 张参考图片，但质量不会线性提升。在实践中：

1-4 张参考图 → 对每件物品有很高的保真度。
5-7 张参考图 → 精细细节匹配可能会有所削弱。
8-10 张参考图 → 融合或物品边界模糊的风险更高。

这是因为 FLUX 的多图条件生成块是如何将视觉嵌入融合到去噪 Transformer 中的。你传入的嵌入越多，Transformer 需要协调的空间和风格线索就越多，竞争也就越大。

关于

关注我获取更多资讯

📢 公众号

💬 个人号