دانلود Qwen Image 2512؛ هوش مصنوعی که مثل یک عکاس حرفهای میبیند
یک سوال ساده برای شروع: آخرین باری که یک تصویر AI دیدید و واقعاً باورتان شد که عکس واقعی است، کِی بود؟ اگر جواب «خیلی وقت پیش» است، احتمالاً با Qwen Image 2512 آشنا نشدید. این مدل که Alibaba در آخرین روز دسامبر ۲۰۲۵ منتشر کرد، سه ضعف کلاسیک تصویرسازی AI را بهطور همزمان حل کرده: چهرههای پلاستیکی، متن ناخوانا در تصویر، و بافتهای طبیعی تار.
برای یک طراح گرافیک، این یعنی میتوانید یک پوستر بسازید. برای یک عکاس، این یعنی میتوانید صحنههایی با نور طبیعی و بافت پوست واقعی تولید کنید. در این مقاله توضیح میدهیم این مدل دقیقاً چیست، چه چیزی تغییر کرده و چطور روی سیستم خودتان اجرایش کنید.
در صورتی که به مدلهای پیشرفته هوش مصنوعی علاقهمند هستید، پیشنهاد میکنیم با یکی از جدیدترین و قدرتمندترین خانوادههای مدلهای زبانی نیز آشنا شوید. برای مطالعه بیشتر، مقاله معرفی Qwen 3.6 را از دست ندهید.
Qwen Image 2512 چیست؟
Qwen Image 2512 آپدیت دسامبر ۲۰۲۵ از خانوادهی مدلهای Qwen-Image Alibaba است. این مدل با ۲۰ میلیارد پارامتر روی معماری MMDiT (Multimodal Diffusion Transformer) ساخته شده و کاملاً متنباز تحت مجوز Apache 2.0 منتشر شده است. یعنی میتوانید آن را دانلود کنید، روی سیستم خودتان اجرا کنید، و حتی در پروژههای تجاری استفاده کنید، بدون هیچ هزینهی اشتراکی.
این مدل در بیش از ۱۰,۰۰۰ دور ارزیابی در AI Arena شرکت کرده و بهعنوان یکی از قویترین مدل متنباز تولید تصویر در آن رتبهبندی معرفی شده است. نکتهی جالبتر این است که نتایج آن حتی با مدلهای تجاری سرشناس نیز رقابت میکند از جمله GenEval score ای که از GPT-Image-1 بالاتر است.

تفاوت Qwen Image 2512 با نسخههای قبلی
خانوادهی Qwen-Image از آگوست ۲۰۲۵ شروع شد و در ادامه شاخههای تولید و ویرایش تصویر جداگانه توسعه پیدا کردند. مدل 2512 که در دسامبر ۲۰۲۵ منتشر شد، ادامهی شاخهی تولید تصویر (generation) است نه ویرایش (edit). در همین بازه، مدل Qwen-Image-Edit-2511 هم منتشر شده که برای ویرایش تصویر موجود طراحی شده و با 2512 هدفگذاری متفاوتی دارد. خلاصهی خط زمانی مدلهای اصلی این خانواده به این ترتیب است: آگوست ۲۰۲۵ انتشار Qwen-Image پایه، سپتامبر Qwen-Image-Edit-2509، دسامبر Qwen-Image-Edit-2511، و نهایتاً 31 دسامبر Qwen-Image-2512.
سه بهبود کلیدی Qwen Image 2512 که برای طراح و عکاس اهمیت دارد
اول: واقعگرایی انسانی
مشکل قدیمی مدلهای تصویرساز AI این بود که چهرههای انسانی را با ظاهری مومی، صاف، و بدون نقص تولید میکردند همان چیزی که به «AI look» معروف شده است. Qwen Image 2512 این مشکل را با رویکرد متفاوتی حل کرده: مدل حالا اطلاعات سن، بافت پوست (منجمله چینوچروک و منافذ)، نور محیطی، و حالت چهره را با هم پردازش میکند. نتیجه این است که چهرههای تولیدشده جزئیاتی دارند که عکاسها برای ساختن پرترهی طبیعی به دنبالشان میگردند. البته که هنوز جای پیشرفت دارد.

دوم: متن درون تصویر
یکی از بزرگترین نقاط ضعف اکثر مدلهای تولید تصویر این بوده که متن داخل تصویر را درست رندر نمیکنند حروف قاطی میشوند، اشتباه نوشته میشوند، یا layout به هم میریزد. Qwen Image 2512 در این زمینه پیشرفت قابل توجهی داشته، بهخصوص برای متنهای چینی، انگلیسی، و بیش از ۲۶ زبان دیگر. برای یک طراح گرافیک این یعنی میتوانید پوستر، بنر، یا اینفوگرافیک با متن تمیز تولید کنید. با این حال، متن فارسی هنوز به بهترین نتیجه نمیرسد و نیاز به prompt engineering دارد این را صادقانه بگوییم.
سوم: جزئیات طبیعت و بافت
عکاسی طبیعت یکی از سختترین چالشهای مدلهای AI بوده، چون بافتهایی مثل پشم حیوانات، آب جاری، مه آبشار، یا لبهی برگهای درهم پیچیده نیاز به جزئیات فراوانی دارند. Qwen Image 2512 در این زمینه بهبود ملموسی نسبت به نسخهی آگوست دارد. این مدل گرادیانهای رنگی در فضای سبز، موج آب و بافت مواد مختلف را با دقت بیشتری رندر میکند.
کاربردهای عملی Qwen Image 2512، هوش مصنوعی تصویر ساز
از زاویهی طراح گرافیک، قویترین کاربرد این مدل ساخت mock-upهای سریع برای ارائه به مشتری است. میتوانید یک صحنهی محصول با نور کنترلشده بسازید، پوستر رویداد با متن درون تصویر تولید کنید یا المانهای تصویری برای مجموعههای بصری طراحی کنید و همهی اینها بدون نیاز به استودیو یا مدل واقعی خواهد بود. استفاده از Lightning LoRA با ۴ یا ۸ مرحله (استپ) هم سرعت تولید را به حدی میرساند که میتوانید ۴ تصویر با رزولوشن ۲K را در حدود ۵ ثانیه بسازید.
از زاویهی عکاس، کاربرد اصلی در پیشتصویرسازی (pre-visualization) صحنه است. قبل از یک عکاسی واقعی میتوانید ایدههای نور و ترکیببندی را با prompt تست کنید. مدل به جزئیاتی مثل «نور طلایی غروب از زاویهی ۴۵ درجه» یا «پرتره با لنز ۸۵mm و بوکهی نرم» پاسخ میدهد، که این سطح از کنترل برای یک عکاس ارزش کار واقعی دارد.
نکته: رزولوشن بهینه برای این مدل ۱۳۲۸×۱۳۲۸ پیکسل است. اگر از ابعاد خیلی متفاوتی استفاده کنید، ممکن است artifact و اعوجاج در خروجی ببینید. بهترین روش این است که در همین رزولوشن بسازید و بعد با ابزار upscaling تخصصی به ابعاد موردنیاز برسانید.

آموزش دانلود Qwen Image 2512
قبل از شروع دانلود، باید فرمت مناسب برای سیستم خودتان را انتخاب کنید. مدل کامل در فرمت FP16 حدود ۴۱ گیگابایت حجم دارد و به کارت گرافیکی با VRAM بالا نیاز دارد. برای اکثر کاربران، فرمتهای GGUF گزینهی عملیتری هستند.

فایلهایی که نیاز دارید
برای اجرای کامل مدل در ComfyUI به سه فایل نیاز دارید.
- اول فایل اصلی مدل (diffusion model) که بر اساس VRAM خود از جدول بالا انتخاب میکنید.
- دوم فایل VAE به نام qwen_image_vae.safetensors که وظیفهی decode تصویر نهایی را دارد.
- سوم Text Encoder به نام qwen_2.5_vl_7b که پردازش متن prompt شما را انجام میدهد.
نصب در ComfyUI
بعد از دانلود، فایلها را در مسیرهای زیر قرار دهید: فایل اصلی مدل در models/diffusion_models، فایل VAE در models/vae، و Text Encoder در models/text_encoders. اگر از GGUF استفاده میکنید، علاوه بر این پلاگین ComfyUI-GGUF ساختهی city96 را هم نصب کنید. از طریق ComfyUI Manager با چند کلیک نصب میشود. این نود ها را میتوانید از دانلود کامفی یوآی پیدا و نصب کنید.
بعد از ریاستارت ComfyUI، شما workflow رسمی را از باکس دانلود بیت گرف دانلود کنید و import کنید. برای سرعت بیشتر، Lightning LoRA نسخهی ۴ مرحلهای را به مسیر models/loras اضافه کنید.
جامعهی AI دربارهی Qwen Image 2512 چه میگوید؟
اجماع کلی جامعهی AI روی کیفیت این مدل مثبت است. نتایج AI Arena که بیش از ۱۰,۰۰۰ مقایسه را در بر میگیرد، Qwen Image 2512 را در صدر مدلهای متنباز قرار داده و حتی نسبت به برخی مدلهای تجاری رقابتی نشان داده است. این نتایج، که توسط اعضای جامعهای بیطرف تولید شدهاند، اعتبار بیشتری نسبت به بنچمارکهای چینی دارند.
با این حال، منتقدان چند نکته را مطرح میکنند. اول اینکه مدل کامل با ۴۱ گیگابایت نیاز سختافزاری بالایی دارد و نسخههای GGUF با کیفیت پایینتری همراهند. دوم اینکه رزولوشن بهینهی ۱۳۲۸×۱۳۲۸ برخی کاربردهای تجاری را محدود میکند. سوم اینکه خروجیهای اولیه گاهی نیاز به prompt engineering دقیقتری دارند تا از حالت generic خارج شوند. این مشکل با LoRAهای اختصاصی تا حدی قابل حل است.
یک نکتهی جالب از جامعهی توسعهدهندگان: Qwen Image 2512 پایداری آموزش LoRA را نسبت به نسخههای قبلی بهبود بخشیده. این یعنی ساخت مدلهای fine-tuned اختصاصی برای برند یا استایل مشخص راحتتر شده نکتهای که برای استودیوهای طراحی که میخواهند مدل را برای هویت بصری خاص خود تنظیم کنند، ارزش توجه دارد.
جمعبندی
Qwen Image 2512 یک مدل تصویرساز AI فوق العاده است که سه مشکل کلاسیک این حوزه: چهرههای مصنوعی، متن ناخوانا و بافتهای تار را با رویکرد جدیدی تا حد زیادی حل کرده. برای طراح گرافیکی که به mock-up سریع و پوستر با متن نیاز دارد، یا عکاسی که میخواهد ایدههای نوری را قبل از استودیو تست کند، این مدل ابزار کار واقعی است نه یک سرگرمی.
اگر سیستمی با کارت گرافیک ۸ گیگابایت یا بالاتر دارید، با فرمت GGUF مناسب میتوانید شروع کنید. فایلهای دانلود در باکس بالا قرار دارند. اگر تجربهای داشتید یا سوالی داشتید، در کانال تلگرام Bitgraph به اشتراک بگذارید.
سوالات متداول
Qwen Image 2512 با Midjourney و DALL-E چه فرقی دارد؟
مهمترین تفاوت ساختاری است: Qwen Image 2512 کاملاً متنباز و رایگان است، در حالی که Midjourney و DALL-E سرویسهای ابری اشتراکی هستند. این یعنی با Qwen میتوانید مدل را روی سیستم خودتان اجرا کنید، تصاویرتان هرگز به سرور خارجی ارسال نمیشوند و هیچ محدودیتی در تعداد تصویر ندارید. از نظر کیفیت، Qwen Image 2512 در متننویسی داخل تصویر از هر دو رقیب جلوتر است، بهخصوص برای زبانهای غیر انگلیسی. در عوض، Midjourney در استایلهای هنری خاص هنوز مزیت دارد و رابط کاربری سادهتری دارد.
آیا مدل فارسی هم مینویسد؟
پاسخ کوتاه این است که بله، اما نه کامل. Qwen Image 2512 در رندر متن چینی و انگلیسی در تصویر عملکرد بسیار خوبی دارد، اما متن فارسی که راستچین است و حروف متصل دارد، هنوز چالشبرانگیز است. در برخی موارد، مدل حروف را درست رندر میکند اما اتصال حروف یا جهت متن دچار اشکال میشود. برای کار با متن فارسی در تصویر، پیشنهاد میکنیم متن را با یک prompt انگلیسی توصیف کنید و بعد در مرحلهی پستپروداکشن مانند ادوبی فتوشاپ با ابزار طراحی اضافه کنید. این موضوع در نسخههای بعدی احتمالاً بهبود پیدا خواهد کرد.
آیا میتوان Qwen Image 2512 را برای پروژههای تجاری استفاده کرد؟
بله، مجوز Apache 2.0 اجازهی استفادهی تجاری را میدهد به شرط رعایت attribution. این مجوز یکی از آزادترین مجوزهای متنباز است و به شما اجازه میدهد تصاویر تولیدشده را در پروژههای تجاری استفاده کنید، مدل را fine-tune کنید، و حتی سرویس مبتنی بر آن بسازید. توجه داشته باشید که مسئولیت محتوای تولیدشده با شما است و باید استانداردهای قانونی و اخلاقی کشور محل فعالیت خود را رعایت کنید. برای استفادهی سازمانی یا استودیویی، مطالعهی کامل متن مجوز قبل از شروع توصیه میشود.
فرق Qwen Image 2512 با Qwen Image Edit 2511 چیست؟
این دو مدل در یک خانواده هستند اما هدفهای کاملاً متفاوتی دارند. Qwen Image 2512 یک مدل text-to-image است یعنی از یک prompt متنی تصویر جدید میسازد. Qwen Image Edit 2511 یک مدل image-to-image است یعنی تصویر موجود شما را بر اساس دستورالعمل ویرایش میکند. اگر میخواهید پوستر یا صحنهی تازه بسازید، 2512 ابزار شماست. اگر میخواهید عکسی که دارید را تغییر دهید، المانی حذف کنید، یا استایلش را عوض کنید، 2511 مناسبتر است. بسیاری از workflowهای حرفهای از هر دو بهصورت ترکیبی استفاده میکنند.
قرارگیری مدل ها با کمک آقای حمیدیان انجام شده است؛ برای تداوم این روند و حفظ دسترسی پایدار، در صورت تمایل میتوانید از ایشان حمایت مالی کنید. همچنین میتوانید موقع حمایت، مدل مدنظرتان را در توضیحات بنویسید.



با عرض سلام و خسته نباشید خدمت شما. بنده مشکلاتی در موقع نصب این مدل داشتم که خدممتون عرض میکنم در ادامه، اما مهم ترین موضوعی که شاید میتونست تمام این مشکلات رو حل کنه یک ویدیو جامع از نحوه درست نصب ComfyUI و همینطور نصب مدل ها بود. که متاسفانه بنده همه مدل هارو آموزش هاش رو نگاه کردم و هیچ کدوم کامل نحوه نصب رو آموزش نمیداد برای مثال یکیشون نحوه جایگذاری فایل هارو گفته بود و دیگری نحوه اینکه چطور ورک فلو رو وارد کنیم اما درمورد بقیه موارد مثل نصب کاستوم نود ها(که فکر کنم یکی از مشکلات من دقیقا از همین نشات میگیره که باید یکی از کاستوم نود هارو نصب کنم.) و استفاده از ComfyUI manager را در هیچ کدام از ویدیو ها و متن ها توضیح نداده بودید. ممنون میشم یه ویدیوی جامع از نحوه نصب از ابتدا بگیرید تا با اینهمه فایلی که وجود داره مخاطب گیج نشه. خیلی متشکرم
حالا به بیان مشکلاتی که داشتم میپردازم:
موقع نصب همین مدل (qwen 2512) با اخطار نبود فایل های لورا و دیفیوژن مدل مواجه میشوم که اطمینان از محل نصب درست آن ها دارم اما ComfyUI آن هارا نمیتواند بخواند.
نحوه استفاده از ComfyUI manager را نمیدانم که در ویدیو به آن اشاره کردید
نحوه نصب کاستوم نود ها را نمیدانم که فکر میکنم مشکل اولم با نصب این مورد حل شود(البته شما از بیان راه حل های مختلف برای رفع مشکل دریغ نکنید.)
بسیار متشکرم.
من عین همین پرامپت پسر مو نقره ای رو زدم داخل Z-image و هیچ تنظیم خاصی هم بهش ندادم.
بنظرم Z-Image خروجی بهتری رو ارائه میده . چون تصویر واقعی نیست شاید اینجوری باشه .
تنها ایرادی که من با Z-image دارم اینه که وقتی بهش میگی مرد ایرانی ، یک عرب چاق برات میسازه و پرامپ منفی هم حالیش نمیشه !
دانلود تکست انکودر Qwen2.5-VL-7B-Instruct-Q2_K.gguf
لینک دانلود مشکل داره
سلام مشکلی نیست و دانلود میشه. با دانلود منیجر نیز تست کنید.
سلام خیلی ممنون بابت لطفتون اگه میشه نسخه های Q4 km یا lQ3 رو هم بزارید ممنون
مطابق ویدیو اموزشی بنده از کیو ۸ هم راضی نبودم حتی در اندازه z-image نیست. برای همین قرار نمیدیم. اگر کارکرد بخصوصی داره توضیح بدید.
درود
لینک تکست انکودر مشکل داره
سالم هست.