معرفی هوش مصنوعی sora برای تولید ویدیو

چکیدهدر این مقاله به معرفی هوش مصنوعی sora که به تازگی از طرف کمپانی OpenAI معرفی شده است، می‌پردازیم. این هوش مصنوعی یک مدل برای تبدیل متن به ویدیوهای یک دقیقه‌ای با کیفیت 1080 است. البته این هوش مصنوعی هنوز در دست‌رس عموم قرار نگرفته است. در این مقاله ویژگی‌های این هوش مصنوعی را بررسی می‌کنیم.

هوش مصنوعی sora، محصول نوآورانه‌ی کمپانی OpenAI، دریچه‌ای نو به سوی دنیای خلق محتوای بصری گشوده است. این مدل هوش مصنوعی با اتکا به قدرت پردازش زبان طبیعی و تکنیک‌های پیشرفته‌ی تولید بصری، قادر است ایده‌ها و داستان‌های متنی را به انیمیشن‌های کوتاه و خلاقانه تبدیل کند. در ادامه به معرفی و بررسی بیش‌تر این هوش مصنوعی می‌پردازیم. شما می‌توانید مطالب بیش‌تری را در رابطه با هوش مصنوعی در سایت بیت‌گرف بخوانید.

کمپانی OpenAI

اوپن‌ای‌آی (OpenAI) یک آزمایشگاه تحقیقاتی غیرانتفاعی است که در سال ۲۰۱۵ توسط ایلان ماسک، سام آلتمن و جمعی از دیگر افراد برجسته در زمینه‌ی هوش مصنوعی تأسیس شد. هدف این مؤسسه، توسعه‌ی هوش مصنوعی عمومی ایمن و مفید برای بشریت است.

فعالیت‌ها

OpenAI در زمینه‌های مختلف هوش مصنوعی، از جمله یادگیری تقویتی، پردازش زبان طبیعی، بینایی رایانه و رباتیک، تحقیقات گسترده‌ای انجام می‌دهد. این مؤسسه تاکنون دستاوردهای چشمگیری در این زمینه‌ها داشته است که از جمله‌ی آن‌ها می‌توان به موارد زیر اشاره کرد:

توسعه‌ی Gym: یک پلتفرم متن‌باز برای آموزش و ارزیابی الگوریتم‌های یادگیری تقویتی
توسعه‌ی Universe: یک پلتفرم متن‌باز برای آموزش و ارزیابی هوش مصنوعی عمومی
توسعه‌ی GPT-3: یک مدل زبانی بزرگ که قادر به تولید متن، ترجمه زبان‌ها، نوشتن انواع مختلف محتوای خلاقانه و پاسخ به سؤالات به صورت آموزنده است.
توسعه‌ی DALL-E 3: یک مدل هوش مصنوعی که قادر به تولید تصاویر خلاقانه از متن است.

اهداف

اوپن‌ای‌آی در تلاش است تا هوش مصنوعی را به گونه‌ای توسعه دهد که برای بشریت مفید و ایمن باشد. این مؤسسه برای تحقق این هدف، به دنبال انجام تحقیقات بنیادی در زمینه‌ی هوش مصنوعی، انتشار یافته‌های خود به صورت عمومی و همکاری با سایر سازمان‌ها و افراد فعال در این زمینه است.

در همین راستا کمپانی OpenAI در تاریخ 15 فوریه 2024 یعنی 26 بهمن 1402، با معرفی هوش مصنوعی sora، بار دیگر مرزهای خلاقیت را جابجا کرده و ابزاری قدرتمند در اختیار طیف وسیعی از کاربران، از جمله هنرمندان، طراحان، و حتی افراد عادی قرار داده است. در ادامه به بررسی این هوش مصنوعی می‌پردازیم.

هوش مصنوعی sora

هوش مصنوعی سورا در واقع یک هوش مصنوعی برای تبدیل متن به ویدیو یا انیمیشن می‌باشد. تا به امروز هوش‌های مصنوعی زیادی برای تولید ویدیو در دست‌رس بود، ولی تمام آن‌ها از دستورات عکس به ویدیو یا ویدیو به ویدیو استفاده می‌کردند و همچنین کیفیت بالایی نداشتند. ولی هوش مصنوعی sora یک پیشگام در این عرصه محسوب می‌شود که می‌تواند فقط با دادن دستور به صورت متن، آن را به یک ویدیو با کیفیت بالا تبدیل کند.

Sora یک مدل انتشار پایدار است که در ابتدا یک تصویر با نویز بسیار زیاد تولید کرده و سپس در چند مرحله این نویزها از بین رفته و ویدیوی درخواستی تولید می‌شود. Sora قادر است کل ویدیوها را به یک‌باره تولید کند یا زمان ویدیوهای تولید شده را گسترش دهد. با پیشبینی مدل بسیاری از فریم‌ها در یک زمان، سورا توانسته است یک مشکل چالش برانگیز را حل کند، آن هم این موضوع که مطمئن می‌شود که یک سوژه بدون تغییر باقی می‌ماند حتی زمانی که به طور موقت از دید دوربین خارج می‌شود.

این مدل علاوه بر اینکه می‌تواند تنها از دستورالعمل‌های متنی یک ویدیو تولید کند، می‌تواند یک تصویر ثابت موجود را بگیرد و از آن یک ویدیو تولید کند و محتوای تصویر را با دقت و توجه به جزئیات کوچک متحرک کند. این مدل همچنین می‌تواند یک ویدیوی موجود را بگیرد و آن را گسترش دهد یا فریم‌های از دست رفته را پر کند.

در حال حاضر این تکنولوژی به صورت رسمی و برای عموم، منتشر نشده است. بلکه در ابتدا در دست‌رس تیم‌هایی برای ارزیابی آسیب‌ها و خطرات آن و درواقع بررسی باگ‌هایی که ممکن است داشته باشد، قرار گرفته است. همچنین کمپانی OpenAI این تکنولوژی فوق‌العاده را در دست‌رس چندین هنرمند از جمله طراحان و فیلم‌سازان قرار داده است تا آن را از لحاظ خلاقیت، و حرفه‌ای بودن، بررسی کنند و بازخوردهای خود را به این کمپانی ارائه دهند. با استفاده از این بازخوردها، می‌توان هوش مصنوعی سورا را توسعه داده و نسخه بدون باگ آن را به صورت عمومی منتشر کرد. البته باید منتظر خبرهای این هوش مصنوعی و آینده آن بمانیم.

ویژگی‌های هوش مصنوعی sora

سورا قادر است صحنه‌های پیچیده با شخصیت‌های متعدد، انواع حرکت خاص و جزئیات دقیق سوژه و پس‌زمینه را ایجاد کند. این مدل نه تنها آن‌چه را که کاربر درخواست کرده است، بلکه چگونگی وجود آن چیزها در دنیای فیزیکی را نیز درک می‌کند.
این مدل درک عمیقی از زبان دارد و آن را قادر می‌سازد تا به طور دقیق دستورات را تفسیر کند و شخصیت‌های کم‌نقص و متقاعدکننده‌ای را ایجاد کند که البته این شخصیت‌ها می‌توانند احساسات را به خوبی ابراز کنند، چیزی که بعضی از هوش‌های مصنوعی از درک آن عاجز هستند. Sora همچنین می‌تواند چندین شات از نماهای مختلف را در یک ویدیوی تولید شده ایجاد کند که شخصیت‌ها و استایل آن‌ها را با دقت حفظ کند.
هوش مصنوعی sora فعلا قادر است تا ویدیوهای 1 دقیقه‌ای با کیفیت 1080 تولید کند. در آینده انتظار می‌رود از این هوش مصنوعی که بتواند ویدیوهای طولانی‌تر و با کیفیت 4k را هم تولید کند.

ضعف‌های سورا

سورا ممکن است با شبیه سازی دقیق فیزیک در یک صحنه پیچیده مشکل داشته باشد و ممکن است موارد خاصی از علت و معلول را درک نکند. برای مثال، شخصی ممکن است یک کوکی را گاز بزند، اما پس از آن، ممکن است روی کوکی جای گاز وجود نداشته باشد.
این مدل همچنین ممکن است جزئیات محیطی یک دستور را اشتباه بگیرد، به عنوان مثال، مشکل در تشخیص چپ و راست، و همچنین ممکن است با توصیف دقیق رویدادهایی که در طول زمان اتفاق می‌افتند، مانند دنبال کردن یک مسیر دوربین خاص مشکل داشته باشد.

صحبت‌های سازندگان سورا درباره امنیت

در این قسمت از مقاله هوش مصنوعی sora می‌خواهیم تکه‌ای از صحبت‌های سازندگان این هوش مصنوعی درباره چگونه‌گی ایجاد امنیت توسط سورا را بخوانیم:

“ما چندین گام مهم ایمنی را پیش از در دسترس قرار دادن Sora در محصولات OpenAI انجام خواهیم داد. ما با تیم‌های قرمز کار می‌کنیم (متخصصان در حوزه‌هایی مانند رهگیری اطلاعات نادرست، محتوای نفرت‌انگیز، و سواستفاده) که به طور سخت‌گیرانه‌ای این مدل را آزمایش خواهند کرد.

ما همچنین در حال ساخت ابزارهایی برای کمک به شناسایی محتوای گمراه‌کننده هستیم، مانند ابزارهایی که می‌تواند تشخیص دهد چه زمانی یک ویدیو توسط Sora تولید شده است و چه موقع یک ویدیو واقعی است. این موضوع به منظور جلوگیری از سواستفاده‌های احتمالی از این تکنولوژی می‌باشد. علاوه بر این موضوع، ما از تکنولولوژی‌هایی که در امنیت Dall-E3 به کار گرفته‌ایم نیز در سورا استفاده خواهیم کرد.

برای مثال، در محصولات OpenAI، ناظر متن ما درخواست‌های ورودی متنی را که ناقض قوانین و دستورالعمل‌های امنیتی ما هستند، بررسی کرده و رد می‌کند، مانند مواردی که درخواست خشونت شدید، محتوای جنسی، تصاویر نفرت‌انگیز، شباهت به افراد مشهور، یا IP دیگران را دارند. ما همچنین ناظرهای تصویری قوی‌ای را ایجاد کرده‌ایم که برای بازبینی فریم‌های هر ویدیوی تولید شده استفاده می‌شود تا قبل از این‌که نتیجه نهایی را به کاربر نشان دهد، اطمینان حاصل شود که از خط‌مشی‌ها و قوانین امنیتی ما پیروی می‌کند.

ما از نقطه نظرات سیاست‌گذاران، مربیان و هنرمندان در سراسر جهان برای درک نگرانی‌های آن‌ها و شناسایی موارد استفاده مثبت از این فناوری جدید استفاده خواهیم کرد. علیرغم تحقیقات و آزمایش‌های گسترده، ما نمی‌توانیم تمام روش‌های مفیدی که مردم از فناوری ما استفاده می‌کنند، و همچنین همه روش‌هایی که مردم از آن سو استفاده می‌کنند را پیش‌بینی کنیم. به همین دلیل است که ما بر این باوریم که اصول یادگیری و استفاده درست در دنیای واقعی یک جزء حیاتی در ایجاد و انتشار سیستم‌های هوش مصنوعی ایمن در طول زمان است.”

ویدیوهای ساخته شده توسط هوش مصنوعی sora

برخی از ویدیوهای ساخته شده توسط هوش مصنوعی sora و پرامپت‌های آن را در پایین مشاهده می‌کنیم:

Prompt: A movie trailer featuring the adventures of the 30 year old space man wearing a red wool knitted motorcycle helmet, blue sky, salt desert, cinematic style, shot on 35mm film, vivid colors

Prompt: Drone view of waves crashing against the rugged cliffs along Big Sur’s garay point beach. The crashing blue waters create white-tipped waves, while the golden light of the setting sun illuminates the rocky shore. A small island with a lighthouse sits in the distance, and green shrubbery covers the cliff’s edge. The steep drop from the road down to the beach is a dramatic feat, with the cliff’s edges jutting out over the sea. This is a view that captures the raw beauty of the coast and the rugged landscape of the Pacific Coast Highway.

Prompt: Animated scene features a close-up of a short fluffy monster kneeling beside a melting red candle. The art style is 3D and realistic, with a focus on lighting and texture. The mood of the painting is one of wonder and curiosity, as the monster gazes at the flame with wide eyes and open mouth. Its pose and expression convey a sense of innocence and playfulness, as if it is exploring the world around it for the first time. The use of warm colors and dramatic lighting further enhances the cozy atmosphere of the image.

Prompt: Photorealistic closeup video of two pirate ships battling each other as they sail inside a cup of coffee.

Prompt: A young man at his 20s is sitting on a piece of cloud in the sky, reading a book.

در این مقاله به معرفی هوش مصنوعی sora که به تازگی از طرف کمپانی OpenAI معرفی شده است، پرداختیم. این هوش مصنوعی یک مدل برای تبدیل متن به ویدیوهای یک دقیقه‌ای با کیفیت 1080 است. البته این هوش مصنوعی هنوز در دست‌رس عموم قرار نگرفته است، ولی به زودی خبرهای بیش‌تری از این هوش مصنوعی قدرتمند در اختیار عموم قرار می‌گیرد و ما نیز در سایت بیت‌گرف برای علاقه‌مندان به حوزه هوش مصنوعی این اخبار را پوشش خواهیم داد.

مهسا سلطانی

گرافیک تنها اتفاقی‌ست که می‌تواند من را از زمان و مکان جدا کند. با افتخار دانش‌جوی دنیای گرافیک هستم، و قصد دارم آموخته‌های خود را در خانواده بزرگ بیت‌گرف با شما به اشتراک بگذارم.

امتیاز: 0 از ۵ - تعداد رای: 0

اشتراک گذاری این صفحه

bitgraph.ir/?p=71218...