هفتههای پایانی سال ۲۰۲۵ دوران بسیار پرکاری برای فضای مدلهای دیفیوژن متنباز (Open Source) بود. پس از انتشار Z-Image Turbo در اواخر نوامبر، شرکت Black Forest Labs با مدل عظیم Flux.2 Dev وارد میدان شد و بلافاصله پس از آن، علیبابا (Alibaba) دو مدل جدید Qwen Image 2512 و Qwen Image Edit 2511 را معرفی کرد.
من سعی میکنم از عبارت “بهترین مدل” دوری کنم، زیرا فکر میکنم به نقطهای رسیدهایم که همه مدلها به روش خاص خودشان بسیار خوب هستند و هرکدام نقاط قوت منحصربهفردی دارند. هر کسی مدلهای مورد علاقه خود را دارد و این پست، دیدگاه من در مورد مدلهای اصلی است که در حال حاضر از آنها استفاده میکنم.
بیایید با Z-Image Turbo شروع کنیم؛ سروصدای زیاد از یک مدل کوچک.

مدل Z-Image Turbo (ZIT)
ورود Z-Image Turbo (ZIT) مانند یک برهمزننده (Disrupter) در فضای مدلهای دیفیوژن بود؛ مدلی با پارامترهای کمتر، که به طور قابلتوجهی کوچکتر و سریعتر از هر چیز دیگری است. کمی گیجکننده است که ZIT توسط گروهی در داخل علیبابا توسعه یافته (همان شرکتی که Qwen Image را توسعه میدهد)، اما آنها بخشهای جداگانهای با مسیرهای توسعه متفاوت هستند.
بعد از عادت کردن به سرعت پایین مدلهای Qwen Image، HiDream و حالا Flux.2 Dev، باور کردن سرعت ZIT سخت است؛ بهویژه وقتی در نظر بگیرید که کیفیت آن با Qwen Image، HiDream و Flux.1 برابری میکند یا حتی از آنها پیشی میگیرد. بسته به انتخاب “Sampler” و کارت گرافیکتان، میتوانید تنها با ۸ مرحله (Step) در عرض یک یا دو دقیقه تصاویر باکیفیتی تولید کنید.
نقاط قوت
- اندازه: سایز ZIT یک نکته مثبت بزرگ است. مدل کامل BF16 میتواند بهراحتی روی یک کارت گرافیک با ۱۶ گیگابایت حافظه (VRAM) اجرا شود و وقتی کامل در حافظه بارگذاری شود، بسیار سریع است.
- واقعگرایی: ZIT برای واقعگرایی (Realism) تنظیم شده و شاید بتوان گفت جزئیات پوست بهتری نسبت به Flux.1، Qwen Image، HiDream یا Flux.2 Dev تولید میکند.
- پیروی از پرامپت: هنگام ساخت تصاویر واقعگرایانه، تبعیت از پرامپت نسبتاً قوی است. به اندازه Qwen Image قدرتمند نیست، اما همچنان بسیار خوب است.
- قابلیت شخصیسازی: اندازه کوچک و تعداد پارامترهای کمتر ZIT، آن را برای فاینتیون (Fine-tuning) و ساخت لورا (LoRA) کاربردی میکند و هماکنون صدها مورد از آنها توسعه یافته است.
نقاط ضعف
- رندر متن: رندر متن در این مدل به قوت Qwen Image یا Flux.2 نیست. کارهای پایه را انجام میدهد اما انتظار نداشته باشید متنهای طولانیتر را درست اجرا کند.
- مشکلات آناتومی: گاهی مشکلات آناتومی وجود دارد. همه مدلها گاهی این مشکل را دارند، اما در ZIT شاید کمی رایجتر باشد.
- نیاز به تنظیم دقیق: ZIT میتواند کیفیت فوقالعادهای ارائه دهد، اما برای گرفتن بهترین نتیجه ممکن است نیاز به دستکاری Samplerها و Schedulerها داشته باشید.
- خلاقیت: این مدل به اندازه سایر مدلها خلاق یا گسترده نیست؛ با این حال، با افزودن LoRAها یا Checkpointهای مناسب میتواند بسیار انعطافپذیر شود.

یادداشتها
اگرچه در ابتدا فکر میکردم ZIT خیلی قوی نیست، اما با تغییر Samplerها و Schedulerها و بهبود ورکفلو (Workflow)، حالا این مدل تبدیل به مدل اصلی من برای خلق تصاویر فوتو-رئالستیک نسبتاً سریع شده است. من از ترکیبی از مدل پایه و چند چکپوینت، بهویژه JibMixZIT v1 و RedCraftRedzimage v1.5 استفاده میکنم. در کنار این، از چند LoRA هم استفاده میکنم، مخصوصاً وقتی از سبک واقعگرایی به سمت انیمه، طراحی یا نقاشی میروم.
وقتی کار پیچیده میشود یا نیاز به متن بیشتر و اینفوگرافیک باشد، به سراغ Qwen Image و شاید در برخی موارد Flux.2 Dev میروم.
اگرچه ورکفلوی استاندارد با استفاده از KSampler و res_2s/simple نتایج قابل قبولی میدهد، من به سراغ سمپلر ClownShark رفتهام (اغلب با ralston_2s/simple)، اما از beta57 و ddim_uniform (معمولاً با dpmpp_2m) نیز استفاده میکنم. نتایج خوبی با bong_tangent (یکی از محبوبهای من برای Qwen) نگرفتهام. نکته کلیدی این است که هیچ ترکیب “بهترینی” وجود ندارد؛ آزمایش کردن کلید موفقیت است.
تصاویر نهایی معمولاً حاصل سمپلرهای ۲ مرحلهای هستند؛ با یک آپاسکیل (Upscale) مبتنی بر مدل Latent در بین آنها، که با یک آپاسکیل نهایی UltimateSD ایجاد میشود.
مدل ZIT از ControlNetها پشتیبانی میکند (با استفاده از پچی به نام ZImage Turbo Fun ControlNet). کار میکند، اما من با کیفیت خروجی مشکلاتی داشتهام و هنوز تنظیماتی پیدا نکردهام که خروجی راضیکنندهای به من بدهد.

مدل Qwen Image 2512
مدل Qwen Image 2512 (QI2512) نسخه بهروزرسانی شده Qwen Image است که در پایان دسامبر ۲۰۲۵ منتشر شد. این همان مدل هسته است اما با تغییراتی برای بهبود واقعگرایی انسانی، جزئیات طبیعی و رندر متن.

مدل Q2512 هنوز یک مدل حجیم (بیش از ۴۰ گیگابایت) است، بنابراین مگر اینکه کارت گرافیک ردهبالایی داشته باشید، باید به سراغ نسخههای FP8 یا GGUF بروید. نسخه Q8 GGUF حدود ۲۱ گیگابایت حجم دارد و بهخوبی روی کارت گرافیک 4060Ti OC شانزده گیگابایتی اجرا میشود.
تا قبل از ظهور Z-Image، مدل اصلی Qwen Image احتمالاً پراستفادهترین مدل من بود. من همچنین از نسخه چکپوینت JibMix برای واقعگرایی بهتر استفاده میکردم. تنها شکایت من کند بودن آن در مقایسه با مثلاً Flux.1 Dev بود، بهخصوص که تمایلی به استفاده از لوراهای Lightning نداشتم چون کیفیت را بیشازحد تحت تأثیر قرار میدادند.
نقاط قوت
- پیروی از پرامپت: تبعیت از پرامپت و جزئیات آن در Qwen Image عالی بود و این ویژگی در Q2512 نیز حفظ شده است. این مدل میتواند آنقدر دقیق و تحتاللفظی باشد که حتی میتوان آن را یک ضعف دانست. باید پرامپتهای خود را بسیار با دقت بنویسید!
- تنوع سبک: هم Qwen Image و هم حالا Q2512 گستردگی زیادی در خروجی دارند؛ از فوتو-رئالیسم گرفته تا سبکهای نقاشی و انیمه. این بدان معنا نیست که با LoRA یا فاینتیون نمیتوانند بهتر شوند، اما مدل پایه خودش طیف وسیعی از خروجیها را ارائه میدهد.
- متن: Qwen Image اولین مدلی بود که پیشرفت واقعی در زمینه متن داشت و به نظر میرسد در Q2512 حتی بهتر شده است. اینکه آیا میتواند از Flux.2 Dev پیشی بگیرد، نیاز به تستهای بیشتر دارد.

نقاط ضعف
- سختافزار: مدل کامل bf16 Q2512 واقعاً فقط با کارتهای گرافیک ردهبالا با VRAM زیاد کار میکند، بنابراین اکثر کاربران محدود به نسخههای FP8 یا GGUF هستند و حتی در آن حالت هم کند است.
- ساخت LoRA: به دلیل اندازه و تعداد پارامترها، ساخت LoRA و چکپوینت نیازمند سختافزار قدرتمند و زمان زیادی است.
- تنوعپذیری کم: مشکلی که در Qwen Image اصلی وجود داشت و به نظر میرسد به Q2512 هم منتقل شده، کمبود تغییرپذیری است. تغییر Seed اغلب منجر به تغییر بسیار کمی میشود؛ همه چیز به پرامپت و مهندسی دقیق آن برمیگردد.
یادداشتها
ورکفلوی استاندارد از euler/simple با ۵۰ مرحله (Step) استفاده میکرد. با سوئیچ به سمپلر Clownshark و استفاده از dpmpp_3s/bong_tangent میتوان در تنها ۱۰ مرحله به نتایج خوبی رسید که عملکرد را به سطح معقولی (حدود ۵ تا ۶ دقیقه روی 4060Ti) میرساند.

مدل VAE فاینتیون شده Spacepxl (Wan2.1/Qwen Finetuned VAE 2x Upscale) را به خاطر دارید؟ این VAE با Q2512 هم کار میکند و یک آپاسکیل ۲ برابری سریع و باکیفیت در فضای Latent ارائه میدهد.
مدل Q2512 قطعاً از نظر فوتو-رئالیسم بهتر از Qwen Image اصلی است و همچنین به نظر میرسد بهتر از Flux.2 Dev باشد، اما فکر نمیکنم هیچکدام در این زمینه به پای Z-Image Turbo برسند که واقعاً غافلگیرکننده است. ممکن است هنوز تنظیماتی برای تغییر وجود داشته باشد، شاید یک LoRA یا فاینتیون کمک کند. من هنوز رویکردی که با Qwen Image اصلی داشتم (عبور دادن نتیجه خروجی Qwen از یک سمپلر دوم با مدل متفاوت) را تست نکردهام. برای Qwen Image معمولاً از Flux.1 Krea به عنوان مرحله دوم استفاده میکردم اما حالا به Z-Image سوئیچ خواهم کرد. این میتواند ترکیبی خوب از قدرت ترکیببندی (Composition) مدل Q2512 و جزئیات ZIT باشد. هرچند بسیار کند خواهد بود.
یک جنبه دیگر که مشکلساز است، Facedetailer است. با ZIT متوجه شدم باید خیلی با تنظیمات محتاط باشید وگرنه جزئیات را کاهش میدهد. با Q2512 به نظر نمیرسد اصلاً چیزی را بهتر کند.
مدل Qwen Image Edit 2511

مدل Qwen Image Edit 2511 (QIE2511) که یک ماه قبل از Q2512 منتشر شد، سومین نسخه از مدل ویرایش تصویر و دنبالهای بر نسخه QIE2509 است.
هدف آن بهبود ثبات کاراکتر (Character Consistency)، ثبات چند نفره و کاهش انحراف تصویر (Drift) در حین ویرایش است. همچنین بهبودهای خاصی برای پشتیبانی از طراحی محصول، جایگزینی متریال و استدلال هندسی دارد.
من نظرات متفاوتی درباره Qwen Image Edit اصلی و QIE2509 داشتم و عموماً Flux.1 Kontext را برای ویرایش تصویر ترجیح میدادم. حالا که Flux.2 یک مدل ترکیبی است، نمیدانم آینده Flux Kontext چه میشود.
نقاط قوت
- ثبات کاراکتر: در حفظ ثبات کاراکتر بسیار قویتر از نسخههای قبلی است، هرچند هنوز مشکلاتی وجود دارد و مطمئن نیستم از Flux.1 Kontext پیشی گرفته باشد.
- بازسازی تصویر: QIE2511 کار بهشکل غافلگیرکنندهای در بازسازی تصاویر (Restoration) خوب است؛ به نظر من بسیار قابلکنترلتر است.
- تغییر سبک: با استفاده از یک تصویر مرجع یا فقط یک پرامپت متنی، میتوانید تغییر سبک (Style Transfer) انجام دهید. مانند مدل هسته، کاملاً گسترده است اما تمایل دارد تصویر منبع را کمی بازتفسیر کند.

نقاط ضعف
- فشار بیشازحد: مانند تمام مدلهای ویرایش، اگر سعی کنید بیشازحد به آنها فشار بیاورید، معمولاً نتایج ضعیفی میدهند. ویرایشهای کوچک بهتر از ویرایشهای بزرگ جواب میدهند.
- سنگینی: مانند مدل اصلی، QIE2511 هم ۴۰ گیگابایت حجم دارد (نسخه Q8 GGUF حدود ۲۱ گیگابایت)، بنابراین برای اجرایش نیاز به سختافزار مناسبی دارید و نسبتاً کند است. برای من یک ویرایش پایه حدود ۶ تا ۸ دقیقه زمان میبرد.

یادداشتها
هنگام ویرایش تصاویر، و بهویژه هنگام ترکیب تصاویر، صراحت در پرامپت کلیدی است. همانند مدل اصلی تولید تصویر، امتحان کردن ترکیبهای مختلف سمپلر/اسکجولر میتواند تفاوت بزرگی در خروجی ایجاد کند.
مدل Flux.2 Dev
مدل Flux.2 Dev یک مدل حیرتانگیز ۳۲ میلیارد پارامتری است که با ۲۴ میلیارد پارامتر اضافی در رمزنگار متن (Text Encoder) همراه شده و مدل کامل را نیازمند ۹۶ گیگابایت حافظه VRAM میکند! حتی نسخه Q8 GGUF هم ۳۲ گیگابایت حجم دارد که نزدیک به سه برابر Flux.1 Dev است. این یک مدل سنگینوزن است که به کارتهای گرافیک ردهبالا محدود میشود و هدفش این است که “همهفنحریف” باشد، با کنترلهایی حتی در سطح کدهای رنگ HEX.
با تصاویر تا ۴ مگاپیکسل، ثبات چند-مرجعی، کنترل در سطح حرفهای و رندر متن پیچیده (با پشتیبانی از چند زبان)، این مدل در حال ورود به فضای حرفهای است.

نقاط قوت
- جزئیات و پرامپت: همانطور که از یک انکودر متن عظیم انتظار دارید، پیروی از پرامپت و جزئیات خوب است. آیا بهتر از Q2512 است؟ هنوز برای گفتن زود است، اما هر دو قویتر از ZIT هستند.
- رندر متن: رندر متن بهبود یافته است. من خیلی تست نکردهام اما تستهایی که انجام دادم شگفتانگیز نبودند، احتمالاً در سطح Q2512 و بهتر از ZIT.
- ترکیببندی (Composition): ترکیببندی Flux.2 Dev به نظر خیلی خوب میرسد، احتمالاً بهتر از Q2512، اما مقایسه قطعی سخت است. همیشه ثابت نیست و گاهی چیزهای عجیبی را نتیجه میدهد.
- ویژگیهای حرفهای: ویژگیهای پیچیده مثل پشتیبانی از کد رنگ HEX، پرامپتنویسی ساختاریافته JSON و کنترل پوز (Pose)، آن را به یک پیشنهاد قدرتمند برای فضای حرفهای تبدیل میکند.
- مدل ترکیبی: Black Forest Labs رویکرد متفاوتی نسبت به علیبابا اتخاذ کرده و Flux.2 را هم مدل تولید تصویر و هم ویرایش تصویر کرده است، در حالی که علیبابا این جریانها را جدا نگه داشته.



نقاط ضعف
- سنگینی: بدون قدرت پردازشی زیاد، این مدل برای بسیاری از کاربردها بیشازحد سنگین است. با استفاده از نسخه Q8 GGUF و ۲۰ استپ، من زمانهای تولید بیش از ۲۰ دقیقه را فقط برای تولید پایه (بدون هیچ جزئیاتدهی یا آپاسکیل) میبینم.
- واقعگرایی: فوتو-رئالیسم، بهویژه جزئیات پوست، در مقایسه با سایر مدلهای موجود بهطرز عجیبی ضعیف به نظر میرسد. چهرهها تمایل دارند نرم و تار باشند، در حالی که سایر جنبهها تقریباً بیشازحد شارپ و تمیز هستند که به خروجی حس مشخص “هوش مصنوعی بودن” میدهد.
- عدم تنوع: مشابه Q2512، این مدل هم تمایل دارد قفل شود و هنگام تغییر Seed یا Guidance تنوعی ارائه ندهد و نیاز به تلاش بیشتر در پرامپتنویسی دارد.

یادداشتها
من هنوز در مراحل اولیه درک Flux.2 Dev هستم، بخشی به این دلیل که مشغول کار با Z-Image Turbo بودم و بخشی هم به خاطر اینکه فرآیند آن بسیار کند است. ذهنیت فعلی من این است که Flux.2 Dev احتمالاً یک مدل بسیار قدرتمند است اما دارد به حوزه متفاوتی وارد میشود؛ هدفگیری بیشتر به سمت توسعه محصول و مارکتینگ است، شاید به قیمت از دست دادن جنبههای فوتو/هنری.
قطعاً تجربه من تاکنون نشان داده که واقعگرایی آن در سطح Q2512 نیست، چه رسد به ZIT. با این حال، توانایی ترکیب محتوا از حداکثر ۱۰ تصویر جالب است و میتواند منجر به خلق آثار جالبی شود.
من کمی شک داشتم که Flux.2 Dev بتواند واقعاً هم یک ویرایشگر تصویر خوب باشد و هم یک خالق، اما در برخی تستهای اولیه به نظر میرسد خوبیهای Flux.1 Kontext را به ارث برده و احتمالاً برای برخی وظایف از Qwen Image Edit 2511 جلوتر است.

مسأله همچنان این است که برای اکثر سختافزارهای مصرفکننده، برای تستهای سریع و تکامل یک تصویر بسیار کند است. البته باید اشاره کنم که استفاده از Flux.2 Pro از طریق API در ComfyUI هم سریع است و هم واقعگرایی بهتری ارائه میدهد، بنابراین اگر حاضر هستید برای هر تصویر هزینه کنید، این ممکن است بهترین ترکیب از کنترل ComfyUI با سرعت و کیفیت مدل پرو (ابری) باشد.
جمعبندی
تلاش برای بهروز ماندن با تمام مدلها در حالی که با سرعت تکامل مییابند خستهکننده است، اما دوران جالبی را رقم زده زیرا همه آنها به روشهای خاص خودشان در حال بهبود هستند. به نظر میرسد شاهد نوعی “بخشبندی” (Segmentation) هستیم و واقعبینانه بگوییم، مدلها نمیتوانند خیلی بیشتر رشد کنند مگر اینکه سختافزار به اندازه کافی برای پشتیبانی از آنها پیشرفت کند. بنابراین احتمالاً شاهد مدلهای بیشتری مانند Z-Image Turbo خواهیم بود که جایگاه ویژهای پیدا کرده و در آن جایگاه عالی عمل میکنند.
برای من، استفاده مداوم از Z-Image Turbo و تست ترکیب Qwen Image 2512 با Z-Image Turbo در برنامه است. گمان میکنم Flux.2 تبدیل به گزینه “آخرین راه چاره” من برای تصاویر پیچیده یا ویرایشهایی شود که بقیه در آن شکست خوردهاند، عمدتاً به دلیل سرعتش.
با این حال، مطمئنم که در ماههای آینده شاهد LoRAها، شتابدهندهها و فاینتیونهای جدیدی برای امثال Qwen Image 2512 و Flux.2 Dev خواهیم بود، بنابراین ممکن است همه چیز دوباره تغییر کند. قطعاً داشتن گزینههای زیاد برای آزمایش عالی است.
لطفا تجربیات تون رو با ما به اشتراک بگذارید …



عالی
خوشحالیم همراه ما هستید.