مهدی فریدونی مدرس

آموزش ها, مقالات آموزشی, هوش مصنوعی 1405/02/17 17 دقیقه 3226

دانلود Qwen Image 2512؛ قوی‌ترین مدل متن‌باز تولید تصویر برای طراحان

چکیدهQwen Image 2512 یکی از قدرتمندترین مدل‌های متن‌باز تولید تصویر است که با تمرکز بر واقع‌گرایی، تولید متن در تصویر و کیفیت بالای بافت‌ها معرفی شده است. در این مقاله با دانلود، نصب در ComfyUI، انتخاب نسخه مناسب بر اساس VRAM و کاربردهای عملی آن برای طراحان و عکاسان آشنا می‌شوید.

دانلود Qwen Image 2512؛ هوش مصنوعی که مثل یک عکاس حرفه‌ای می‌بیند

یک سوال ساده برای شروع: آخرین باری که یک تصویر AI دیدید و واقعاً باورتان شد که عکس واقعی است، کِی بود؟ اگر جواب «خیلی وقت پیش» است، احتمالاً با Qwen Image 2512 آشنا نشدید. این مدل که Alibaba در آخرین روز دسامبر ۲۰۲۵ منتشر کرد، سه ضعف کلاسیک تصویرسازی AI را به‌طور همزمان حل کرده: چهره‌های پلاستیکی، متن ناخوانا در تصویر، و بافت‌های طبیعی تار.
برای یک طراح گرافیک، این یعنی می‌توانید یک پوستر بسازید. برای یک عکاس، این یعنی می‌توانید صحنه‌هایی با نور طبیعی و بافت پوست واقعی تولید کنید. در این مقاله توضیح می‌دهیم این مدل دقیقاً چیست، چه چیزی تغییر کرده و چطور روی سیستم خودتان اجرایش کنید.

در صورتی که به مدل‌های پیشرفته هوش مصنوعی علاقه‌مند هستید، پیشنهاد می‌کنیم با یکی از جدیدترین و قدرتمندترین خانواده‌های مدل‌های زبانی نیز آشنا شوید. برای مطالعه بیشتر، مقاله معرفی Qwen 3.6 را از دست ندهید.

Qwen Image 2512 چیست؟

Qwen Image 2512 آپدیت دسامبر ۲۰۲۵ از خانواده‌ی مدل‌های Qwen-Image Alibaba است. این مدل با ۲۰ میلیارد پارامتر روی معماری MMDiT (Multimodal Diffusion Transformer) ساخته شده و کاملاً متن‌باز تحت مجوز Apache 2.0 منتشر شده است. یعنی می‌توانید آن را دانلود کنید، روی سیستم خودتان اجرا کنید، و حتی در پروژه‌های تجاری استفاده کنید، بدون هیچ هزینه‌ی اشتراکی.
این مدل در بیش از ۱۰,۰۰۰ دور ارزیابی در AI Arena شرکت کرده و به‌عنوان یکی از قوی‌ترین مدل متن‌باز تولید تصویر در آن رتبه‌بندی معرفی شده است. نکته‌ی جالب‌تر این است که نتایج آن حتی با مدل‌های تجاری سرشناس نیز رقابت می‌کند از جمله GenEval score ای که از GPT-Image-1 بالاتر است.

پرامپت تصویر

A young male ronin, age 23, with amber eyes that glow faintly, a scar running across his left cheek, and a stoic demeanor. His short, spiky ash‑gray hair is highlighted with silver strands. He dons a tattered white haori over dark, battle‑worn lamellar armor, and a pair of leather gauntlets etched with phoenix motifs. He stands atop the cracked marble steps of an ancient floating Sky‑Temple, its shattered pillars suspended among swirling violet clouds. Below, patterned wind‑runes pulse with a soft blue light. The sky is streaked with aurora‑like ribbons, and a gentle wind lifts his cloak. Ambient twilight with a cool violet hue, no artificial light.

تفاوت Qwen Image 2512 با نسخه‌های قبلی

خانواده‌ی Qwen-Image از آگوست ۲۰۲۵ شروع شد و در ادامه شاخه‌های تولید و ویرایش تصویر جداگانه توسعه پیدا کردند. مدل 2512 که در دسامبر ۲۰۲۵ منتشر شد، ادامه‌ی شاخه‌ی تولید تصویر (generation) است نه ویرایش (edit). در همین بازه، مدل Qwen-Image-Edit-2511 هم منتشر شده که برای ویرایش تصویر موجود طراحی شده و با 2512 هدف‌گذاری متفاوتی دارد. خلاصه‌ی خط زمانی مدل‌های اصلی این خانواده به این ترتیب است: آگوست ۲۰۲۵ انتشار Qwen-Image پایه، سپتامبر Qwen-Image-Edit-2509، دسامبر Qwen-Image-Edit-2511، و نهایتاً 31 دسامبر Qwen-Image-2512.

اگر علاوه بر تولید تصویر، به ویرایش حرفه‌ای تصاویر با هوش مصنوعی هم علاقه‌مند هستید، پیشنهاد می‌کنیم ابزار مکمل این مدل را نیز بررسی کنید. برای آشنایی بیشتر با قابلیت‌ها، آموزش نصب و نحوه استفاده، مقاله دانلود Qwen Image Edit را از دست ندهید.

سه بهبود کلیدی Qwen Image 2512 که برای طراح و عکاس اهمیت دارد

اول: واقع‌گرایی انسانی

مشکل قدیمی مدل‌های تصویرساز AI این بود که چهره‌های انسانی را با ظاهری مومی، صاف، و بدون نقص تولید می‌کردند همان چیزی که به «AI look» معروف شده است. Qwen Image 2512 این مشکل را با رویکرد متفاوتی حل کرده: مدل حالا اطلاعات سن، بافت پوست (منجمله چین‌وچروک و منافذ)، نور محیطی، و حالت چهره را با هم پردازش می‌کند. نتیجه این است که چهره‌های تولیدشده جزئیاتی دارند که عکاس‌ها برای ساختن پرتره‌ی طبیعی به دنبالشان می‌گردند. البته که هنوز جای پیشرفت دارد.

دوم: متن درون تصویر

یکی از بزرگ‌ترین نقاط ضعف اکثر مدل‌های تولید تصویر این بوده که متن داخل تصویر را درست رندر نمی‌کنند حروف قاطی می‌شوند، اشتباه نوشته می‌شوند، یا layout به هم می‌ریزد. Qwen Image 2512 در این زمینه پیشرفت قابل توجهی داشته، به‌خصوص برای متن‌های چینی، انگلیسی، و بیش از ۲۶ زبان دیگر. برای یک طراح گرافیک این یعنی می‌توانید پوستر، بنر، یا اینفوگرافیک با متن تمیز تولید کنید. با این حال، متن فارسی هنوز به بهترین نتیجه نمی‌رسد و نیاز به prompt engineering دارد این را صادقانه بگوییم.

سوم: جزئیات طبیعت و بافت

عکاسی طبیعت یکی از سخت‌ترین چالش‌های مدل‌های AI بوده، چون بافت‌هایی مثل پشم حیوانات، آب جاری، مه آبشار، یا لبه‌ی برگ‌های درهم پیچیده نیاز به جزئیات فراوانی دارند. Qwen Image 2512 در این زمینه بهبود ملموسی نسبت به نسخه‌ی آگوست دارد. این مدل گرادیان‌های رنگی در فضای سبز، موج آب و بافت مواد مختلف را با دقت بیشتری رندر می‌کند.

کاربردهای عملی Qwen Image 2512، هوش مصنوعی تصویر ساز

از زاویه‌ی طراح گرافیک، قوی‌ترین کاربرد این مدل ساخت mock-upهای سریع برای ارائه به مشتری است. می‌توانید یک صحنه‌ی محصول با نور کنترل‌شده بسازید، پوستر رویداد با متن درون تصویر تولید کنید یا المان‌های تصویری برای مجموعه‌های بصری طراحی کنید و همه‌ی اینها بدون نیاز به استودیو یا مدل واقعی خواهد بود. استفاده از Lightning LoRA با ۴ یا ۸ مرحله‌ (استپ) هم سرعت تولید را به حدی می‌رساند که می‌توانید ۴ تصویر با رزولوشن ۲K را در حدود ۵ ثانیه بسازید.

از زاویه‌ی عکاس، کاربرد اصلی در پیش‌تصویرسازی (pre-visualization) صحنه است. قبل از یک عکاسی واقعی می‌توانید ایده‌های نور و ترکیب‌بندی را با prompt تست کنید. مدل به جزئیاتی مثل «نور طلایی غروب از زاویه‌ی ۴۵ درجه» یا «پرتره با لنز ۸۵mm و بوکه‌ی نرم» پاسخ می‌دهد، که این سطح از کنترل برای یک عکاس ارزش کار واقعی دارد.

نکته‌: رزولوشن بهینه برای این مدل ۱۳۲۸×۱۳۲۸ پیکسل است. اگر از ابعاد خیلی متفاوتی استفاده کنید، ممکن است artifact و اعوجاج در خروجی ببینید. بهترین روش این است که در همین رزولوشن بسازید و بعد با ابزار upscaling تخصصی به ابعاد موردنیاز برسانید.

کاربردهای عملی Qwen Image 2512 هوش مصنوعی برای طراح و عکاس

آموزش دانلود Qwen Image 2512

قبل از شروع دانلود، باید فرمت مناسب برای سیستم خودتان را انتخاب کنید. مدل کامل در فرمت FP16 حدود ۴۱ گیگابایت حجم دارد و به کارت گرافیکی با VRAM بالا نیاز دارد. برای اکثر کاربران، فرمت‌های GGUF گزینه‌ی عملی‌تری هستند.

پیشنهاد مطالعه

مدل ویرایش تصویر 2509 و 2511 را دانلود کنید.

ادامه‌ی مطلب

فایل‌هایی که نیاز دارید

برای اجرای کامل مدل در ComfyUI به سه فایل نیاز دارید.

اول فایل اصلی مدل (diffusion model) که بر اساس VRAM خود از جدول بالا انتخاب می‌کنید.
دوم فایل VAE به نام qwen_image_vae.safetensors که وظیفه‌ی decode تصویر نهایی را دارد.
سوم Text Encoder به نام qwen_2.5_vl_7b که پردازش متن prompt شما را انجام می‌دهد.

نصب در ComfyUI

بعد از دانلود، فایل‌ها را در مسیرهای زیر قرار دهید: فایل اصلی مدل در models/diffusion_models، فایل VAE در models/vae، و Text Encoder در models/text_encoders. اگر از GGUF استفاده می‌کنید، علاوه بر این پلاگین ComfyUI-GGUF ساخته‌ی city96 را هم نصب کنید. از طریق ComfyUI Manager با چند کلیک نصب می‌شود. این نود ها را میتوانید از دانلود کامفی یوآی پیدا و نصب کنید.

بعد از ری‌استارت ComfyUI، شما workflow رسمی را از باکس دانلود بیت گرف دانلود کنید و import کنید. برای سرعت بیشتر، Lightning LoRA نسخه‌ی ۴ مرحله‌ای را به مسیر models/loras اضافه کنید.

جامعه‌ی AI درباره‌ی Qwen Image 2512 چه می‌گوید؟

اجماع کلی جامعه‌ی AI روی کیفیت این مدل مثبت است. نتایج AI Arena که بیش از ۱۰,۰۰۰ مقایسه‌ را در بر می‌گیرد، Qwen Image 2512 را در صدر مدل‌های متن‌باز قرار داده و حتی نسبت به برخی مدل‌های تجاری رقابتی نشان داده است. این نتایج، که توسط اعضای جامعه‌ای بی‌طرف تولید شده‌اند، اعتبار بیشتری نسبت به بنچمارک‌های چینی دارند.

با این حال، منتقدان چند نکته را مطرح می‌کنند. اول اینکه مدل کامل با ۴۱ گیگابایت نیاز سخت‌افزاری بالایی دارد و نسخه‌های GGUF با کیفیت پایین‌تری همراهند. دوم اینکه رزولوشن بهینه‌ی ۱۳۲۸×۱۳۲۸ برخی کاربردهای تجاری را محدود می‌کند. سوم اینکه خروجی‌های اولیه گاهی نیاز به prompt engineering دقیق‌تری دارند تا از حالت generic خارج شوند. این مشکل با LoRAهای اختصاصی تا حدی قابل حل است.

یک نکته‌ی جالب از جامعه‌ی توسعه‌دهندگان: Qwen Image 2512 پایداری آموزش LoRA را نسبت به نسخه‌های قبلی بهبود بخشیده. این یعنی ساخت مدل‌های fine-tuned اختصاصی برای برند یا استایل مشخص راحت‌تر شده نکته‌ای که برای استودیوهای طراحی که می‌خواهند مدل را برای هویت بصری خاص خود تنظیم کنند، ارزش توجه دارد.

جمع‌بندی

Qwen Image 2512 یک مدل تصویرساز AI فوق العاده است که سه مشکل کلاسیک این حوزه: چهره‌های مصنوعی، متن ناخوانا و بافت‌های تار را با رویکرد جدیدی تا حد زیادی حل کرده. برای طراح گرافیکی که به mock-up سریع و پوستر با متن نیاز دارد، یا عکاسی که می‌خواهد ایده‌های نوری را قبل از استودیو تست کند، این مدل ابزار کار واقعی است نه یک سرگرمی.

اگر سیستمی با کارت گرافیک ۸ گیگابایت یا بالاتر دارید، با فرمت GGUF مناسب می‌توانید شروع کنید. فایل‌های دانلود در باکس بالا قرار دارند. اگر تجربه‌ای داشتید یا سوالی داشتید، در کانال تلگرام Bitgraph به اشتراک بگذارید.

سوالات متداول

Qwen Image 2512 با Midjourney و DALL-E چه فرقی دارد؟

مهم‌ترین تفاوت ساختاری است: Qwen Image 2512 کاملاً متن‌باز و رایگان است، در حالی که Midjourney و DALL-E سرویس‌های ابری اشتراکی هستند. این یعنی با Qwen می‌توانید مدل را روی سیستم خودتان اجرا کنید، تصاویرتان هرگز به سرور خارجی ارسال نمی‌شوند و هیچ محدودیتی در تعداد تصویر ندارید. از نظر کیفیت، Qwen Image 2512 در متن‌نویسی داخل تصویر از هر دو رقیب جلوتر است، به‌خصوص برای زبان‌های غیر انگلیسی. در عوض، Midjourney در استایل‌های هنری خاص هنوز مزیت دارد و رابط کاربری ساده‌تری دارد.

آیا مدل فارسی هم می‌نویسد؟

پاسخ کوتاه این است که بله، اما نه کامل. Qwen Image 2512 در رندر متن چینی و انگلیسی در تصویر عملکرد بسیار خوبی دارد، اما متن فارسی که راست‌چین است و حروف متصل دارد، هنوز چالش‌برانگیز است. در برخی موارد، مدل حروف را درست رندر می‌کند اما اتصال حروف یا جهت متن دچار اشکال می‌شود. برای کار با متن فارسی در تصویر، پیشنهاد می‌کنیم متن را با یک prompt انگلیسی توصیف کنید و بعد در مرحله‌ی پست‌پروداکشن مانند ادوبی فتوشاپ با ابزار طراحی اضافه کنید. این موضوع در نسخه‌های بعدی احتمالاً بهبود پیدا خواهد کرد.

آیا می‌توان Qwen Image 2512 را برای پروژه‌های تجاری استفاده کرد؟

بله، مجوز Apache 2.0 اجازه‌ی استفاده‌ی تجاری را می‌دهد به شرط رعایت attribution. این مجوز یکی از آزادترین مجوزهای متن‌باز است و به شما اجازه می‌دهد تصاویر تولیدشده را در پروژه‌های تجاری استفاده کنید، مدل را fine-tune کنید، و حتی سرویس مبتنی بر آن بسازید. توجه داشته باشید که مسئولیت محتوای تولیدشده با شما است و باید استانداردهای قانونی و اخلاقی کشور محل فعالیت خود را رعایت کنید. برای استفاده‌ی سازمانی یا استودیویی، مطالعه‌ی کامل متن مجوز قبل از شروع توصیه می‌شود.

فرق Qwen Image 2512 با Qwen Image Edit 2511 چیست؟

این دو مدل در یک خانواده هستند اما هدف‌های کاملاً متفاوتی دارند. Qwen Image 2512 یک مدل text-to-image است یعنی از یک prompt متنی تصویر جدید می‌سازد. Qwen Image Edit 2511 یک مدل image-to-image است یعنی تصویر موجود شما را بر اساس دستورالعمل ویرایش می‌کند. اگر می‌خواهید پوستر یا صحنه‌ی تازه بسازید، 2512 ابزار شماست. اگر می‌خواهید عکسی که دارید را تغییر دهید، المانی حذف کنید، یا استایلش را عوض کنید، 2511 مناسب‌تر است. بسیاری از workflowهای حرفه‌ای از هر دو به‌صورت ترکیبی استفاده می‌کنند.

قرارگیری مدل ها با کمک آقای حمیدیان انجام شده است؛ برای تداوم این روند و حفظ دسترسی پایدار، در صورت تمایل می‌توانید از ایشان حمایت مالی کنید. همچنین می‌توانید موقع حمایت، مدل مدنظرتان را در توضیحات بنویسید.

فیلم آموزش کار با Qwen Image 2512 73 مگابایت پخش کننده های ویدیو

دانـلود کپی رمز

مدل qwen-image-2512-Q8_0 4 گیگابایت Win/Mac/Linux Part 01

دانـلود کپی رمز

مدل qwen-image-2512-Q8_0 4 گیگابایت Win/Mac/Linux Part 02

دانـلود کپی رمز

مدل qwen-image-2512-Q8_0 4 گیگابایت Win/Mac/Linux Part 03

دانـلود کپی رمز

مدل qwen-image-2512-Q8_0 4 گیگابایت Win/Mac/Linux Part 04

دانـلود کپی رمز

مدل qwen-image-2512-Q8_0 4 گیگابایت Win/Mac/Linux Part 05

دانـلود کپی رمز

مدل qwen-image-2512-Q8_0 554 مگابایت Win/Mac/Linux Part 06

دانـلود کپی رمز

------

دانـلود کپی رمز

VAE فایل qwen_image_vae.safetensors 240 مگابایت Win/Mac/Linux

دانـلود کپی رمز

------

دانـلود کپی رمز

تکست انکودر Qwen2.5-VL-7B-Instruct-Q2_K.gguf 2.8 گیگابایت Win/Mac/Linux

دانـلود کپی رمز

تکست انکودر Qwen2.5-VL-7B-Instruct-UD-Q4_K_XL.gguf 4.45 گیگابایت Win/Mac/Linux

دانـلود کپی رمز

------

دانـلود کپی رمز

لورا Qwen-Image-Lightning-4steps-V1.0.safetensors 1.58 گیگابایت Win/Mac/Linux

دانـلود کپی رمز

------

دانـلود کپی رمز

ورک فلو unsloth_qwen_image_2512 3 کیلوبایت Win/Mac/Linux

دانـلود کپی رمز

مهدی فریدونی

عاشق نرم افزارهای ادوبی و یادگیری هستم؛ یکی از فوق العاده ترین اتفاق های زندگیم پیوستن به آقای اعتمادی و تیم بسیار درجه یک بیت گرف است.

امتیاز: 0 از ۵ - تعداد رای: 0

اشتراک گذاری این صفحه

bitgraph.ir/?p=86546...

برای مطالب بیشتر آکادمی بیت گرف را دنبال کنید!

کانال یوتیوب بیت گرف کانال تلگرام بیت گرف اینستاگرام بیت گرف

پست های مشابه آموزش های مرتبط با مقاله یا آموزشی که در حال مطالعه آن هستید!

دانلود و آموزش کار با FLUX.2 Klein

5 236

مهدی فریدونی 1405/02/23 مشــاهده

زوم ذره بین در افترافکت / با روشی ساده

5 226

تیم تولید محتوا بیت گرف 1405/02/22 مشــاهده

پرامپت‌نویسی برای ویدیو هوش مصنوعی؛ کلاس درس کامل از صفر تا صد برای Seedance، Kling و Veo3 و …

5 1150

ارسطو اعتمادی 1405/02/21 مشــاهده

پایان مشکل هوش مصنوعی: SubQ با ۱۰۰۰ برابر صرفه‌جویی، Claude و GPT را به چالش می کشد؟

5 350

مهدی فریدونی 1405/02/19 مشــاهده

فریپیک به اسم جدید Magnific ریبرند کرد!

5 352

تیم تولید محتوا بیت گرف 1405/02/19 مشــاهده

پایان جنگ AI؟! Colossus 1 به خدمت Anthropic درآمد؛ شوک بزرگ ۲۰۲۶

5 242

مهدی فریدونی 1405/02/19 مشــاهده

پرامپت نویسی برای Claude؛ راهنمای جامع ۱۰ تکنیک عملی برای طراحان

5 642

ارسطو اعتمادی 1405/02/16 مشــاهده

Projects در Claude؛ چطور context را برای پروژه‌های طراحی نگه داریم

5 496

ارسطو اعتمادی 1405/02/15 مشــاهده

گفتگو و سوالات شما در این قسمت میتوانید نظر یا سوال خود را در مورد مقاله یا آموزش مطرح کنید.

دیدگاهتان را بنویسید برای ارسال دیدگاه لازم است در سایت وارد شده یا ثبت نام کنید ... ثبت نام یا ورود به آکادمی بیت گرف

11 دیدگاه به گفتگوی ما بپیوندید و نظرتان را با ما به اشتراک بگذارید ...

Ali M.A 1405/02/21

با عرض سلام و خسته نباشید خدمت شما. بنده مشکلاتی در موقع نصب این مدل داشتم که خدممتون عرض میکنم در ادامه، اما مهم ترین موضوعی که شاید میتونست تمام این مشکلات رو حل کنه یک ویدیو جامع از نحوه درست نصب ComfyUI و همینطور نصب مدل ها بود. که متاسفانه بنده همه مدل هارو آموزش هاش رو نگاه کردم و هیچ کدوم کامل نحوه نصب رو آموزش نمیداد برای مثال یکیشون نحوه جایگذاری فایل هارو گفته بود و دیگری نحوه اینکه چطور ورک فلو رو وارد کنیم اما درمورد بقیه موارد مثل نصب کاستوم نود ها(که فکر کنم یکی از مشکلات من دقیقا از همین نشات میگیره که باید یکی از کاستوم نود هارو نصب کنم.) و استفاده از ComfyUI manager را در هیچ کدام از ویدیو ها و متن ها توضیح نداده بودید. ممنون میشم یه ویدیوی جامع از نحوه نصب از ابتدا بگیرید تا با اینهمه فایلی که وجود داره مخاطب گیج نشه. خیلی متشکرم

حالا به بیان مشکلاتی که داشتم میپردازم:
موقع نصب همین مدل (qwen 2512) با اخطار نبود فایل های لورا و دیفیوژن مدل مواجه میشوم که اطمینان از محل نصب درست آن ها دارم اما ComfyUI آن هارا نمیتواند بخواند.
نحوه استفاده از ComfyUI manager را نمیدانم که در ویدیو به آن اشاره کردید
نحوه نصب کاستوم نود ها را نمیدانم که فکر میکنم مشکل اولم با نصب این مورد حل شود(البته شما از بیان راه حل های مختلف برای رفع مشکل دریغ نکنید.)

بسیار متشکرم.

محمد قزآنی 1405/02/18

من عین همین پرامپت پسر مو نقره ای رو زدم داخل Z-image و هیچ تنظیم خاصی هم بهش ندادم.
بنظرم Z-Image خروجی بهتری رو ارائه میده . چون تصویر واقعی نیست شاید اینجوری باشه .
تنها ایرادی که من با Z-image دارم اینه که وقتی بهش میگی مرد ایرانی ، یک عرب چاق برات میسازه و پرامپ منفی هم حالیش نمیشه !