تیم تولید محتوا بیت گرف بخش تحریریه

مقالات آموزشی, هوش مصنوعی 1404/11/04 18 دقیقه 8242

بررسی مدل‌های جدید: Z-Image Turbo، Qwen Image-2512 (و Edit-2511) و Flux.2 Dev

چکیدهدر پایان ۲۰۲۵، مدل‌های متن‌باز دیفیوژن جهش بزرگی داشتند؛ Z-Image Turbo با سرعت و واقع‌گرایی، Qwen Image با دقت و متن، و Flux.2 Dev با کنترل حرفه‌ای هرکدام نقش متفاوتی ایفا می‌کنند. در ادامه ...

هفته‌های پایانی سال ۲۰۲۵ دوران بسیار پرکاری برای فضای مدل‌های دیفیوژن متن‌باز (Open Source) بود. پس از انتشار Z-Image Turbo در اواخر نوامبر، شرکت Black Forest Labs با مدل عظیم Flux.2 Dev وارد میدان شد و بلافاصله پس از آن، علی‌بابا (Alibaba) دو مدل جدید Qwen Image 2512 و Qwen Image Edit 2511 را معرفی کرد.

من سعی می‌کنم از عبارت “بهترین مدل” دوری کنم، زیرا فکر می‌کنم به نقطه‌ای رسیده‌ایم که همه مدل‌ها به روش خاص خودشان بسیار خوب هستند و هرکدام نقاط قوت منحصربه‌فردی دارند. هر کسی مدل‌های مورد علاقه خود را دارد و این پست، دیدگاه من در مورد مدل‌های اصلی است که در حال حاضر از آن‌ها استفاده می‌کنم.

بیایید با Z-Image Turbo شروع کنیم؛ سروصدای زیاد از یک مدل کوچک.

مدل Z-Image Turbo (ZIT)

ورود Z-Image Turbo (ZIT) مانند یک برهم‌زننده (Disrupter) در فضای مدل‌های دیفیوژن بود؛ مدلی با پارامترهای کمتر، که به طور قابل‌توجهی کوچک‌تر و سریع‌تر از هر چیز دیگری است. کمی گیج‌کننده است که ZIT توسط گروهی در داخل علی‌بابا توسعه یافته (همان شرکتی که Qwen Image را توسعه می‌دهد)، اما آن‌ها بخش‌های جداگانه‌ای با مسیرهای توسعه متفاوت هستند.

بعد از عادت کردن به سرعت پایین مدل‌های Qwen Image، HiDream و حالا Flux.2 Dev، باور کردن سرعت ZIT سخت است؛ به‌ویژه وقتی در نظر بگیرید که کیفیت آن با Qwen Image، HiDream و Flux.1 برابری می‌کند یا حتی از آن‌ها پیشی می‌گیرد. بسته به انتخاب “Sampler” و کارت گرافیکتان، می‌توانید تنها با ۸ مرحله (Step) در عرض یک یا دو دقیقه تصاویر باکیفیتی تولید کنید.

نقاط قوت

اندازه: سایز ZIT یک نکته مثبت بزرگ است. مدل کامل BF16 می‌تواند به‌راحتی روی یک کارت گرافیک با ۱۶ گیگابایت حافظه (VRAM) اجرا شود و وقتی کامل در حافظه بارگذاری شود، بسیار سریع است.
واقع‌گرایی: ZIT برای واقع‌گرایی (Realism) تنظیم شده و شاید بتوان گفت جزئیات پوست بهتری نسبت به Flux.1، Qwen Image، HiDream یا Flux.2 Dev تولید می‌کند.
پیروی از پرامپت: هنگام ساخت تصاویر واقع‌گرایانه، تبعیت از پرامپت نسبتاً قوی است. به اندازه Qwen Image قدرتمند نیست، اما همچنان بسیار خوب است.
قابلیت شخصی‌سازی: اندازه کوچک و تعداد پارامترهای کمتر ZIT، آن را برای فاین‌تیون (Fine-tuning) و ساخت لورا (LoRA) کاربردی می‌کند و هم‌اکنون صدها مورد از آن‌ها توسعه یافته است.

نقاط ضعف

رندر متن: رندر متن در این مدل به قوت Qwen Image یا Flux.2 نیست. کارهای پایه را انجام می‌دهد اما انتظار نداشته باشید متن‌های طولانی‌تر را درست اجرا کند.
مشکلات آناتومی: گاهی مشکلات آناتومی وجود دارد. همه مدل‌ها گاهی این مشکل را دارند، اما در ZIT شاید کمی رایج‌تر باشد.
نیاز به تنظیم دقیق: ZIT می‌تواند کیفیت فوق‌العاده‌ای ارائه دهد، اما برای گرفتن بهترین نتیجه ممکن است نیاز به دستکاری Samplerها و Schedulerها داشته باشید.
خلاقیت: این مدل به اندازه سایر مدل‌ها خلاق یا گسترده نیست؛ با این حال، با افزودن LoRAها یا Checkpointهای مناسب می‌تواند بسیار انعطاف‌پذیر شود.

1. نقد و بررسی مدل‌های هوش مصنوعی — واقع‌گرایی جایی است که Z-Image Turbo بالاترین امتیاز را می‌گیرد.

یادداشت‌ها

اگرچه در ابتدا فکر می‌کردم ZIT خیلی قوی نیست، اما با تغییر Samplerها و Schedulerها و بهبود ورک‌فلو (Workflow)، حالا این مدل تبدیل به مدل اصلی من برای خلق تصاویر فوتو-رئالستیک نسبتاً سریع شده است. من از ترکیبی از مدل پایه و چند چک‌پوینت، به‌ویژه JibMixZIT v1 و RedCraftRedzimage v1.5 استفاده می‌کنم. در کنار این، از چند LoRA هم استفاده می‌کنم، مخصوصاً وقتی از سبک واقع‌گرایی به سمت انیمه، طراحی یا نقاشی می‌روم.

وقتی کار پیچیده می‌شود یا نیاز به متن بیشتر و اینفوگرافیک باشد، به سراغ Qwen Image و شاید در برخی موارد Flux.2 Dev می‌روم.

اگرچه ورک‌فلوی استاندارد با استفاده از KSampler و res_2s/simple نتایج قابل قبولی می‌دهد، من به سراغ سمپلر ClownShark رفته‌ام (اغلب با ralston_2s/simple)، اما از beta57 و ddim_uniform (معمولاً با dpmpp_2m) نیز استفاده می‌کنم. نتایج خوبی با bong_tangent (یکی از محبوب‌های من برای Qwen) نگرفته‌ام. نکته کلیدی این است که هیچ ترکیب “بهترینی” وجود ندارد؛ آزمایش کردن کلید موفقیت است.

تصاویر نهایی معمولاً حاصل سمپلرهای ۲ مرحله‌ای هستند؛ با یک آپ‌اسکیل (Upscale) مبتنی بر مدل Latent در بین آن‌ها، که با یک آپ‌اسکیل نهایی UltimateSD ایجاد می‌شود.

مدل ZIT از ControlNetها پشتیبانی می‌کند (با استفاده از پچی به نام ZImage Turbo Fun ControlNet). کار می‌کند، اما من با کیفیت خروجی مشکلاتی داشته‌ام و هنوز تنظیماتی پیدا نکرده‌ام که خروجی راضی‌کننده‌ای به من بدهد.

مدل Qwen Image 2512

مدل Qwen Image 2512 (QI2512) نسخه به‌روزرسانی شده Qwen Image است که در پایان دسامبر ۲۰۲۵ منتشر شد. این همان مدل هسته است اما با تغییراتی برای بهبود واقع‌گرایی انسانی، جزئیات طبیعی و رندر متن.

مدل Q2512 هنوز یک مدل حجیم (بیش از ۴۰ گیگابایت) است، بنابراین مگر اینکه کارت گرافیک رده‌بالایی داشته باشید، باید به سراغ نسخه‌های FP8 یا GGUF بروید. نسخه Q8 GGUF حدود ۲۱ گیگابایت حجم دارد و به‌خوبی روی کارت گرافیک 4060Ti OC شانزده گیگابایتی اجرا می‌شود.

تا قبل از ظهور Z-Image، مدل اصلی Qwen Image احتمالاً پراستفاده‌ترین مدل من بود. من همچنین از نسخه چک‌پوینت JibMix برای واقع‌گرایی بهتر استفاده می‌کردم. تنها شکایت من کند بودن آن در مقایسه با مثلاً Flux.1 Dev بود، به‌خصوص که تمایلی به استفاده از لوراهای Lightning نداشتم چون کیفیت را بیش‌ازحد تحت تأثیر قرار می‌دادند.

نقاط قوت

پیروی از پرامپت: تبعیت از پرامپت و جزئیات آن در Qwen Image عالی بود و این ویژگی در Q2512 نیز حفظ شده است. این مدل می‌تواند آنقدر دقیق و تحت‌اللفظی باشد که حتی می‌توان آن را یک ضعف دانست. باید پرامپت‌های خود را بسیار با دقت بنویسید!
تنوع سبک: هم Qwen Image و هم حالا Q2512 گستردگی زیادی در خروجی دارند؛ از فوتو-رئالیسم گرفته تا سبک‌های نقاشی و انیمه. این بدان معنا نیست که با LoRA یا فاین‌تیون نمی‌توانند بهتر شوند، اما مدل پایه خودش طیف وسیعی از خروجی‌ها را ارائه می‌دهد.
متن: Qwen Image اولین مدلی بود که پیشرفت واقعی در زمینه متن داشت و به نظر می‌رسد در Q2512 حتی بهتر شده است. اینکه آیا می‌تواند از Flux.2 Dev پیشی بگیرد، نیاز به تست‌های بیشتر دارد.

نقاط ضعف

سخت‌افزار: مدل کامل bf16 Q2512 واقعاً فقط با کارت‌های گرافیک رده‌بالا با VRAM زیاد کار می‌کند، بنابراین اکثر کاربران محدود به نسخه‌های FP8 یا GGUF هستند و حتی در آن حالت هم کند است.
ساخت LoRA: به دلیل اندازه و تعداد پارامترها، ساخت LoRA و چک‌پوینت نیازمند سخت‌افزار قدرتمند و زمان زیادی است.
تنوع‌پذیری کم: مشکلی که در Qwen Image اصلی وجود داشت و به نظر می‌رسد به Q2512 هم منتقل شده، کمبود تغییرپذیری است. تغییر Seed اغلب منجر به تغییر بسیار کمی می‌شود؛ همه چیز به پرامپت و مهندسی دقیق آن برمی‌گردد.

یادداشت‌ها

ورک‌فلوی استاندارد از euler/simple با ۵۰ مرحله (Step) استفاده می‌کرد. با سوئیچ به سمپلر Clownshark و استفاده از dpmpp_3s/bong_tangent می‌توان در تنها ۱۰ مرحله به نتایج خوبی رسید که عملکرد را به سطح معقولی (حدود ۵ تا ۶ دقیقه روی 4060Ti) می‌رساند.

مدل VAE فاین‌تیون شده Spacepxl (Wan2.1/Qwen Finetuned VAE 2x Upscale) را به خاطر دارید؟ این VAE با Q2512 هم کار می‌کند و یک آپ‌اسکیل ۲ برابری سریع و باکیفیت در فضای Latent ارائه می‌دهد.

مدل Q2512 قطعاً از نظر فوتو-رئالیسم بهتر از Qwen Image اصلی است و همچنین به نظر می‌رسد بهتر از Flux.2 Dev باشد، اما فکر نمی‌کنم هیچ‌کدام در این زمینه به پای Z-Image Turbo برسند که واقعاً غافلگیرکننده است. ممکن است هنوز تنظیماتی برای تغییر وجود داشته باشد، شاید یک LoRA یا فاین‌تیون کمک کند. من هنوز رویکردی که با Qwen Image اصلی داشتم (عبور دادن نتیجه خروجی Qwen از یک سمپلر دوم با مدل متفاوت) را تست نکرده‌ام. برای Qwen Image معمولاً از Flux.1 Krea به عنوان مرحله دوم استفاده می‌کردم اما حالا به Z-Image سوئیچ خواهم کرد. این می‌تواند ترکیبی خوب از قدرت ترکیب‌بندی (Composition) مدل Q2512 و جزئیات ZIT باشد. هرچند بسیار کند خواهد بود.

یک جنبه دیگر که مشکل‌ساز است، Facedetailer است. با ZIT متوجه شدم باید خیلی با تنظیمات محتاط باشید وگرنه جزئیات را کاهش می‌دهد. با Q2512 به نظر نمی‌رسد اصلاً چیزی را بهتر کند.

مدل Qwen Image Edit 2511

مدل Qwen Image Edit 2511 (QIE2511) که یک ماه قبل از Q2512 منتشر شد، سومین نسخه از مدل ویرایش تصویر و دنباله‌ای بر نسخه QIE2509 است.

هدف آن بهبود ثبات کاراکتر (Character Consistency)، ثبات چند نفره و کاهش انحراف تصویر (Drift) در حین ویرایش است. همچنین بهبودهای خاصی برای پشتیبانی از طراحی محصول، جایگزینی متریال و استدلال هندسی دارد.

من نظرات متفاوتی درباره Qwen Image Edit اصلی و QIE2509 داشتم و عموماً Flux.1 Kontext را برای ویرایش تصویر ترجیح می‌دادم. حالا که Flux.2 یک مدل ترکیبی است، نمی‌دانم آینده Flux Kontext چه می‌شود.

نقاط قوت

ثبات کاراکتر: در حفظ ثبات کاراکتر بسیار قوی‌تر از نسخه‌های قبلی است، هرچند هنوز مشکلاتی وجود دارد و مطمئن نیستم از Flux.1 Kontext پیشی گرفته باشد.
بازسازی تصویر: QIE2511 کار به‌شکل غافلگیرکننده‌ای در بازسازی تصاویر (Restoration) خوب است؛ به نظر من بسیار قابل‌کنترل‌تر است.
تغییر سبک: با استفاده از یک تصویر مرجع یا فقط یک پرامپت متنی، می‌توانید تغییر سبک (Style Transfer) انجام دهید. مانند مدل هسته، کاملاً گسترده است اما تمایل دارد تصویر منبع را کمی بازتفسیر کند.

نقاط ضعف

فشار بیش‌ازحد: مانند تمام مدل‌های ویرایش، اگر سعی کنید بیش‌ازحد به آن‌ها فشار بیاورید، معمولاً نتایج ضعیفی می‌دهند. ویرایش‌های کوچک بهتر از ویرایش‌های بزرگ جواب می‌دهند.
سنگینی: مانند مدل اصلی، QIE2511 هم ۴۰ گیگابایت حجم دارد (نسخه Q8 GGUF حدود ۲۱ گیگابایت)، بنابراین برای اجرایش نیاز به سخت‌افزار مناسبی دارید و نسبتاً کند است. برای من یک ویرایش پایه حدود ۶ تا ۸ دقیقه زمان می‌برد.

یادداشت‌ها

هنگام ویرایش تصاویر، و به‌ویژه هنگام ترکیب تصاویر، صراحت در پرامپت کلیدی است. همانند مدل اصلی تولید تصویر، امتحان کردن ترکیب‌های مختلف سمپلر/اسکجولر می‌تواند تفاوت بزرگی در خروجی ایجاد کند.

مدل Flux.2 Dev

مدل Flux.2 Dev یک مدل حیرت‌انگیز ۳۲ میلیارد پارامتری است که با ۲۴ میلیارد پارامتر اضافی در رمزنگار متن (Text Encoder) همراه شده و مدل کامل را نیازمند ۹۶ گیگابایت حافظه VRAM می‌کند! حتی نسخه Q8 GGUF هم ۳۲ گیگابایت حجم دارد که نزدیک به سه برابر Flux.1 Dev است. این یک مدل سنگین‌وزن است که به کارت‌های گرافیک رده‌بالا محدود می‌شود و هدفش این است که “همه‌فن‌حریف” باشد، با کنترل‌هایی حتی در سطح کدهای رنگ HEX.

با تصاویر تا ۴ مگاپیکسل، ثبات چند-مرجعی، کنترل در سطح حرفه‌ای و رندر متن پیچیده (با پشتیبانی از چند زبان)، این مدل در حال ورود به فضای حرفه‌ای است.

نقاط قوت

جزئیات و پرامپت: همان‌طور که از یک انکودر متن عظیم انتظار دارید، پیروی از پرامپت و جزئیات خوب است. آیا بهتر از Q2512 است؟ هنوز برای گفتن زود است، اما هر دو قوی‌تر از ZIT هستند.
رندر متن: رندر متن بهبود یافته است. من خیلی تست نکرده‌ام اما تست‌هایی که انجام دادم شگفت‌انگیز نبودند، احتمالاً در سطح Q2512 و بهتر از ZIT.
ترکیب‌بندی (Composition): ترکیب‌بندی Flux.2 Dev به نظر خیلی خوب می‌رسد، احتمالاً بهتر از Q2512، اما مقایسه قطعی سخت است. همیشه ثابت نیست و گاهی چیزهای عجیبی را نتیجه می‌دهد.
ویژگی‌های حرفه‌ای: ویژگی‌های پیچیده مثل پشتیبانی از کد رنگ HEX، پرامپت‌نویسی ساختاریافته JSON و کنترل پوز (Pose)، آن را به یک پیشنهاد قدرتمند برای فضای حرفه‌ای تبدیل می‌کند.
مدل ترکیبی: Black Forest Labs رویکرد متفاوتی نسبت به علی‌بابا اتخاذ کرده و Flux.2 را هم مدل تولید تصویر و هم ویرایش تصویر کرده است، در حالی که علی‌بابا این جریان‌ها را جدا نگه داشته.

نقاط ضعف

سنگینی: بدون قدرت پردازشی زیاد، این مدل برای بسیاری از کاربردها بیش‌ازحد سنگین است. با استفاده از نسخه Q8 GGUF و ۲۰ استپ، من زمان‌های تولید بیش از ۲۰ دقیقه را فقط برای تولید پایه (بدون هیچ جزئیات‌دهی یا آپ‌اسکیل) می‌بینم.
واقع‌گرایی: فوتو-رئالیسم، به‌ویژه جزئیات پوست، در مقایسه با سایر مدل‌های موجود به‌طرز عجیبی ضعیف به نظر می‌رسد. چهره‌ها تمایل دارند نرم و تار باشند، در حالی که سایر جنبه‌ها تقریباً بیش‌ازحد شارپ و تمیز هستند که به خروجی حس مشخص “هوش مصنوعی بودن” می‌دهد.
عدم تنوع: مشابه Q2512، این مدل هم تمایل دارد قفل شود و هنگام تغییر Seed یا Guidance تنوعی ارائه ندهد و نیاز به تلاش بیشتر در پرامپت‌نویسی دارد.

یادداشت‌ها

من هنوز در مراحل اولیه درک Flux.2 Dev هستم، بخشی به این دلیل که مشغول کار با Z-Image Turbo بودم و بخشی هم به خاطر اینکه فرآیند آن بسیار کند است. ذهنیت فعلی من این است که Flux.2 Dev احتمالاً یک مدل بسیار قدرتمند است اما دارد به حوزه متفاوتی وارد می‌شود؛ هدف‌گیری بیشتر به سمت توسعه محصول و مارکتینگ است، شاید به قیمت از دست دادن جنبه‌های فوتو/هنری.

قطعاً تجربه من تاکنون نشان داده که واقع‌گرایی آن در سطح Q2512 نیست، چه رسد به ZIT. با این حال، توانایی ترکیب محتوا از حداکثر ۱۰ تصویر جالب است و می‌تواند منجر به خلق آثار جالبی شود.

من کمی شک داشتم که Flux.2 Dev بتواند واقعاً هم یک ویرایشگر تصویر خوب باشد و هم یک خالق، اما در برخی تست‌های اولیه به نظر می‌رسد خوبی‌های Flux.1 Kontext را به ارث برده و احتمالاً برای برخی وظایف از Qwen Image Edit 2511 جلوتر است.

مسأله همچنان این است که برای اکثر سخت‌افزارهای مصرف‌کننده، برای تست‌های سریع و تکامل یک تصویر بسیار کند است. البته باید اشاره کنم که استفاده از Flux.2 Pro از طریق API در ComfyUI هم سریع است و هم واقع‌گرایی بهتری ارائه می‌دهد، بنابراین اگر حاضر هستید برای هر تصویر هزینه کنید، این ممکن است بهترین ترکیب از کنترل ComfyUI با سرعت و کیفیت مدل پرو (ابری) باشد.

جمع‌بندی

تلاش برای به‌روز ماندن با تمام مدل‌ها در حالی که با سرعت تکامل می‌یابند خسته‌کننده است، اما دوران جالبی را رقم زده زیرا همه آن‌ها به روش‌های خاص خودشان در حال بهبود هستند. به نظر می‌رسد شاهد نوعی “بخش‌بندی” (Segmentation) هستیم و واقع‌بینانه بگوییم، مدل‌ها نمی‌توانند خیلی بیشتر رشد کنند مگر اینکه سخت‌افزار به اندازه کافی برای پشتیبانی از آن‌ها پیشرفت کند. بنابراین احتمالاً شاهد مدل‌های بیشتری مانند Z-Image Turbo خواهیم بود که جایگاه ویژه‌ای پیدا کرده و در آن جایگاه عالی عمل می‌کنند.

برای من، استفاده مداوم از Z-Image Turbo و تست ترکیب Qwen Image 2512 با Z-Image Turbo در برنامه است. گمان می‌کنم Flux.2 تبدیل به گزینه “آخرین راه چاره” من برای تصاویر پیچیده یا ویرایش‌هایی شود که بقیه در آن شکست خورده‌اند، عمدتاً به دلیل سرعتش.

با این حال، مطمئنم که در ماه‌های آینده شاهد LoRAها، شتاب‌دهنده‌ها و فاین‌تیون‌های جدیدی برای امثال Qwen Image 2512 و Flux.2 Dev خواهیم بود، بنابراین ممکن است همه چیز دوباره تغییر کند. قطعاً داشتن گزینه‌های زیاد برای آزمایش عالی است.

لطفا تجربیات تون رو با ما به اشتراک بگذارید …