مدل متن به تصویر یک مدل یادگیری ماشینی است که یک توصیف زبان طبیعی را به عنوان ورودی می گیرد و تصویری مطابق با آن توصیف تولید می کند. این مدل ها در اواسط دهه 2010 در نتیجه پیشرفت در شبکه های عصبی عمیق شروع به توسعه کردند. در سال 2022، خروجی به روز ترین مدلهای تبدیل متن به تصویر، مانند مدل DALL-E 2 از Open AI ، Imagen از Google Brain و Stable Diffusion از StabilityAI به کیفیت عکس های واقعی و نقاشی های انسانی نزدیک تر شدند.
مدلهای متن به تصویر عموماً یک مدل زبان ، که متن ورودی را به یک نمایش پنهان تبدیل میکند، و یک مدل تصویر تولیدی که یک تصویر براساس آن نمایش تولید میکند را ترکیب میکنند. مؤثرترین مدلها عموماً بر روی مقادیر انبوهی از دادههای تصویر و متن استخراج شده از وب آموزش داده شدهاند.[۲]
تاریخچه
قبل از ظهور یادگیری عمیق، تلاشها برای ساخت مدلهای متن به تصویر به ساخت کلاژ با کنار هم قرار دادن تصاویر تشکیل دهنده ی موجود، مانند پایگاه دادههای کلیپ آرت محدود میشد.[۳][۴]
برعکس این عمل که نوشتن شرح تصویر نام دارد ، قابل انجامتر بود و تعدادی از مدلهای یادگیری عمیق شرح تصویر، قبل از اولین مدلهای متن به تصویر وجود داشتند.[۵]
اولین مدل مدرن متن به تصویر، alignDRAW، در سال 2015 توسط محققان دانشگاه تورنتو معرفی شد. alignDRAW معماری DRAW را که قبلاً معرفی شده بود (که از رمزگذار خودکار متغیر تکراری با مکانیزم توجه استفاده میکرد) گسترش داد تا به دنبالههای متنی مشروط شود. تصاویر تولید شده توسط alignDRAW تار و غیر واقعی بودند، اما مدل قادر بود به اشیایی که در دادههای آموزشی نشان داده نشدهاند تعمیم یابد (مانند اتوبوس مدرسه ی قرمز رنگ)، و بهطور مناسب از پس ورودی های جدید مانند "تابلوی علامت توقف که در حال پرواز در آسمان آبی است " برآمد. این موضوع نشان می دهد که مدل صرفاً داده های مجموعه آموزشی را«به خاطر » نمی سپرده است.
در سال 2016، رید، آکاتا، یان و همکاران. اولین کسانی بودند که از شبکه های متخاصم مولد برای کار متن به تصویر استفاده کردند. آن ها با مدلهایی که بر روی مجموعهدادههای محدود و مخصوص به حوزه های خاص آموزش دیده بودند، توانستند تصاویر « قابل قبول بصری» از پرندگان و گلها را از زیرنویسهایی مانند «پرندهای تماماً سیاه با یک منقار ضخیم و گرد متمایز» تولید کنند. یک مدل آموزش دیده بر روی مجموعه داده های متنوع تر COCO ، تصاویری را تولید کرد که "از دور... دلگرم کننده"، اما فاقد انسجام در جزئیات بودند. سیستم هایی که بعدا به وجود آمدند عبارتند از VQGAN+CLIP، XMC-GAN , و GauGAN2.
یکی از اولین مدلهای تبدیل متن به تصویر که توجه عموم را به خود جلب کرد، DALL-E OpenAI بود، یک سیستم ترانسفورماتور که در ژانویه 2021 معرفی شد. یک مدل جانشین که قادر به تولید تصاویر پیچیدهتر و واقعیتر بود با نام DALL-E 2، در آوریل 2022 رونمایی شد، و پس از آن Stable Diffusion به طور عمومی در آگوست 2022 منتشر شد
دیگر مدلهای تبدیل متن به تصویرعبارت اند ازپلتفرمهای متن به ویدیوی مبتنی بر مدل زبان مانند Runway، Make-A-Video، Imagen Video، [۶]Midjourney و Phenaki که میتوانند از ورودیهای متن و/یا متن/تصویر، ویدیو تولید کنند.[۷]
معماری و آموزش
مدل های متن به تصویر با استفاده از معماری های مختلف ساخته شده اند. مرحله رمزگذاری متن ممکن است با یک شبکه عصبی تکراری مانند شبکه حافظه کوتاه مدت (LSTM) انجام شود، اگرچه مدلهای ترانسفورماتور از آن زمان به گزینه محبوبتری تبدیل شدهاند. برای مرحله تولید تصویر، شبکههای متخاصم مولد مشروط معمولا مورد استفاده قرار میگیرند و مدلهای انتشار نیز در سالهای اخیر به یک گزینه محبوب تبدیل شدهاند. به جای آموزش مستقیم یک مدل برای خروجی یک تصویر با وضوح بالا مشروط به جاسازی متن، یک تکنیک رایج این است که یک مدل را برای تولید تصاویر با وضوح پایین آموزش داده، و از یک یا چند مدل یادگیری عمیق کمکی برای ارتقاء آن استفاده شود، تا به آن جزئیات اضافه کند.
مدلهای متن به تصویر بر روی مجموعه دادههای بزرگ به صورت جفت (متن، تصویر) آموزش داده میشوند که اغلب از وب جمع آوریمیشوند. Google Brain با مدل Imagen 2022 خود نتایج مثبتی را از استفاده از یک مدل زبان بزرگ که به طور جداگانه بر روی یک مجموعه فقط متنی آموزش داده شده بود (که وزنهای آن متعاقباً منجمد شده بود) گزارش کرد، که از رویکرد استاندارد قبلی فاصله گرفت.[۸]
مجموعه داده ها
آموزش یک مدل متن به تصویر نیاز به مجموعه داده ای از تصاویر همراه با زیرنویس متن دارد. یکی از مجموعه دادههایی که معمولاً برای این منظور استفاده میشود COCO (Common Objects in Context) است. COCO که توسط مایکروسافت در سال 2014 منتشر شد، شامل حدود 123000 تصویر است که انواع مختلفی از اشیاء را با پنج عنوان در هر تصویر، که توسط حاشیهنویسهای انسانی ایجاد شدهاند، به تصویر میکشد، Oxford-120 Flowers و CUB-200 Birds مجموعه داده های کوچکتری از هر کدام حدود 10000 تصویر هستند که به ترتیب به گل ها و پرندگان محدود می شوند. آموزش یک مدل متن به تصویر با کیفیت بالا با این مجموعه دادهها، به دلیل دامنه محدود موضوع آنها، کمتر دشوار تلقی میشود.[۹]
ارزیابی
ارزیابی و مقایسه کیفیت مدلهای متن به تصویر یک مشکل چالش برانگیز است و شامل ارزیابی چندین ویژگی مطلوب میباشد. برای هر مدل تصویر تولیدی، مطلوب است که تصاویر تولید شده واقع گرایانه باشند (به این معنا که به نظر می رسد تا حد قابل قبولی متعلق به مجموعه آموزشی باشند) و در سبک خود متنوع باشند. یک نیازمندی خاص برای مدلهای متن به تصویر این است که تصاویر تولید شده از نظر معنایی با زیرنویسهای متنی که برای تولید آنها استفاده میشوند همخوانی داشته باشند. تعدادی روش برای ارزیابی این کیفیت ها ابداع شده است، برخی خودکار و برخی دیگر بر اساس قضاوت انسان.
یک معیار الگوریتمی رایج برای ارزیابی کیفیت و تنوع تصویر، امتیاز اولیه (IS) است، که بر اساس توزیع برچسبهای پیشبینیشده توسط یک مدل طبقهبندی تصویر Inceptionv3 از پیش آموزشدیده و اعمال شده بر بر نمونهای از تصاویر تولید شده توسط مدل متن به تصویر میباشد. امتیاز زمانی افزایش مییابد که مدل طبقهبندی تصویر یک برچسب واحد را با احتمال زیاد پیشبینی کند، طرحی که به نفع تصاویر تولید شده ی «متمایز» است. یکی دیگر از معیارهای محبوب، فاصله اولیه فریشت مربوطه است که توزیع تصاویر تولید شده و تصاویر آموزشی واقعی را با توجه به ویژگی های استخراج شده توسط یکی از لایه های نهایی یک مدل طبقه بندی تصویر از پیش آموزش دیده مقایسه می کند.[۱۰]
تاثیر و کاربردها
در آگوست ۲۰۲۲ هوش مصنوعی متن به تصویر جایزه ی مقام اول را در یک مسابقه ی هنر دیجیتالی از آن خود کرد(به طور خاص در دسته بندی نوظهور هنرمند دیجیتالی مسابقه ی سالانهی هنر کلورادو استیت فیر با ۳۰۰ دلار جایزه)
در همان زمان یک متخصص نتیجه گرفت که هنر هوش مصنوعی درحال حاضر همه جا هست. در حالی که متخصصین هم نمیدانستند این به چه معناست. یک منبع خبری تعیین کرد که هنر هوش مصنوعی بسیار فراگیر میشود و گزارشی در مورد مشکلات کپی رایت و اتوماتیک سازی هنرمندان حرفه ای ارایه داد. یک منبع خبری دیگر در مورد دیپ فیک ها ابراز نگرانی کرد. یک مجله احتمال ایجاد انواع جدید ابراز هنر را بیان کرد و یک سرمقاله تاکید کرد که این موضوع میتواند به عنوان یک افزایش توانایی انسان دیده شود.
مثال های این افزایش ها میتواند شامل امکان افزایش ژانرهای خاص غیرتجاری (مانند انواع مختلف سایبر پانک مثل سولار پانک) توسط تازه کارها، سرگرمی جدید، بازی های نوین و خلاقانهی کودکی، ساخت سریع نمونه های آزمایشی افزایش دسترسی به ایجاد هنر و خروجی هنر به ازای تلاش و یا هزینه یا زمان باشد یعنی توسط ایجاد پیش نویس ها، منابع الهام، اصلاح پیش نویس ها و اجزای تصاویر.
رسانه مصنوعی که شامل هنر هوش مصنوعی است، در 2022 به عنوان یک روند بزرگ تکنولوژی که کسب و کار را تحت تاثیر قرار می دهد، معرفی شده است.[۱۱]
همچنین ببینید
منابع
- ↑ Mansimov, Elman; Parisotto, Emilio; Ba, Jimmy Lei; Salakhutdinov, Ruslan (February 29, 2016). "Generating Images from Captions with Attention" (PDF). International Conference on Learning Representations.
- ↑ Vincent، James (۲۰۲۲-۰۵-۲۴). «All these images were generated by Google's latest text-to-image AI». The Verge (به انگلیسی). دریافتشده در ۲۰۲۳-۰۲-۰۲.
- ↑ «Adversarial Neural Network» (PDF).
- ↑ «Text-to-picture synthesis» (PDF).
- ↑ «Generating Images from Captions with Attention».
- ↑ insiyak (۲۰۲۴-۰۱-۰۵). «How to Use Midjourney on Discord: (Tutorial 1) step-by-step Guide». Almoco (به انگلیسی). دریافتشده در ۲۰۲۴-۰۲-۰۹.
- ↑ Elgan, Mike (2022-11-01). "How 'synthetic media' will transform business forever". Computerworld (به انگلیسی). Retrieved 2023-02-02.
- ↑ Saharia, Chitwan; Chan, William; Saxena, Saurabh; Li, Lala; Whang, Jay; Denton, Emily; Ghasemipour, Seyed Kamyar Seyed; Ayan, Burcu Karagol; Mahdavi, S. Sara (2022-05-23). "Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding". arXiv:2205.11487 [cs].
- ↑ Frolov, Stanislav; Hinz, Tobias; Raue, Federico; Hees, Jörn; Dengel, Andreas (2021-12-01). "Adversarial text-to-image synthesis: A review". Neural Networks (به انگلیسی). 144: 187–209. doi:10.1016/j.neunet.2021.07.019. ISSN 0893-6080.
- ↑ Frolov, Stanislav; Hinz, Tobias; Raue, Federico; Hees, Jörn; Dengel, Andreas (2021-12-01). "Adversarial text-to-image synthesis: A review". Neural Networks (به انگلیسی). 144: 187–209. doi:10.1016/j.neunet.2021.07.019. ISSN 0893-6080.
- ↑ Elgan, Mike (2022-11-01). "How 'synthetic media' will transform business forever". Computerworld (به انگلیسی). Retrieved 2023-02-02.