Надійний

Огляд DALL-E 2: усе, що необхідно знати

6 хв
Від Shilpa Lama
Оновлено Nikita Valshonok

Дискусії щодо системи другого покоління DALL-E 2 від OpenAI залишаються суперечливими навіть через місяці після її запуску. Одні вважають її проривною інновацією, здатною переосмислити мистецтво, тоді як критики вбачають у ній перші ознаки загрози для творчих індустрій через генератори зображень на основі штучного інтелекту (ШІ).

Так чи інакше, DALL-E 2 відкриває нові можливості (і виклики) для створення та сприйняття мистецтва. Цей детальний огляд DALL-E 2 заглиблюється в особливості генератора зображень на основі ШІ. Який досвід використання цього додатка, і чи є у нього суттєві недоліки?

Що таке DALL-E 2?

Що таке Dall-E-2

DALL-E 2 є генератором зображень на основі ШІ. Він може створювати зображення та форми мистецтва з текстових описів природною мовою. Іншими словами, це система штучного інтелекту, яка генерує зображення з тексту.

DALL-E 2 є наступником моделі DALL-E від OpenAI, запущеної у січні 2021 року. Назва «DALL-E» — це комбінація імені відомого іспанського художника Сальвадора Далі та персонажа Wall-E, популярного анімаційного робота студії Pixar.

У липні 2022 року DALL-E 2 увійшов у бета-версію і був доступний для обраних користувачів з білого списку. OpenAI зняла вимогу білого списку 28.09.2022, зробивши його відкритим бета-доступом для всіх бажаючих.

Як і оригінальний DALL-E, DALL-E 2 є генеративною мовною моделлю, що використовує текстові запити для створення оригінальних зображень. Це велика модель із приблизно 3,5 млрд параметрів, хоча вона менша за попередника з 12 млрд параметрів. Попри це, DALL-E 2 генерує зображення з роздільною здатністю, учетверо вищою, ніж у першої версії, що є значним удосконаленням. Вона також демонструє кращі результати у фотореалізмі та відповідності текстовим описам.

Як використовувати DALL-E 2

Як використовувати генератор зображень на основі ШІ

DALL-E 2 може звучати футуристично і, можливо, лякати нових користувачів. Але його використання вражаюче просте. Цей огляд DALL-E 2 не заглиблюватиметься в практичні деталі. Однак, якщо ви хочете дізнатися, як використовувати генератор, ознайомтеся з нашим детальним посібником з використання DALL-E 2.

Ось міні-урок для тих, хто шукає швидкий огляд. Спочатку перейдіть на офіційний сайт DALL-E 2 і створіть обліковий запис. Або увійдіть, якщо у вас вже є обліковий запис OpenAI. Процес швидкий, простий і легкий. Зверніть увагу, що вас попросять надати вашу електронну пошту та номер телефону для перевірки.

Коли ваш обліковий запис буде готовий, вам потрібно буде вставити описову текстову підказку до 400 символів. Генератор мистецтва на основі ШІ зробить решту. На основі нашого досвіду тестування програми, ми отримали оригінальні та цікаві результати з наших текстових підказок.

Наприклад, ми ввели «зграя вовків, що виє на повний місяць» і отримали такі результати (разом з чотирма варіаціями на зображення).

Огляд DALL-E 2 - зразок зображення

А текстова підказка «3D рендер римського солдата, що відпочиває» дала такі зображення:

Огляд DALL-E 2: зразок 3D рендеру

DALL-E 2: Під капотом

DALL-E 2 встановив новий стандарт якості для генераторів зображень на основі ШІ. Він може краще розуміти текстові описи, ніж будь-що, що було до нього. Його вища здатність до розуміння природної мови забезпечує більш точне управління стилями, темами, кутами, фонами, локаціями та концепціями. Результатом є зображення вищої якості та вражаюча форма мистецтва. Ось скорочена версія того, як працює DALL-E.

Як працює DALL-E 2

Щоб зрозуміти, як працює генератор зображень на основі ШІ, необхідно мати певне уявлення про наступні концепції:

  • CLIP: Розшифровується як Contrastive Language-Image Pre-training. Це, можливо, найважливіший будівельний блок у архітектурі DALL-E 2. Підхід базується на ідеї, що можна використовувати природну мову для навчання комп’ютерів, як різні зображення пов’язані між собою. CLIP складається з двох нейронних мереж — текстового та зображувального енкодера. Обидві навчаються на величезних і різноманітних колекціях пар зображень і текстів. Модель аналізує ці пари зображень і підписів, щоб створити векторні представлення, які називаються текстовими/зображувальними вбудовами. Іншими словами, CLIP слугує мостом між текстом (вхід) та зображенням (вихід).
  • Попередня модель: Вона бере підпис/текстову вбудову CLIP і на основі цього генерує зображувальні вбудови CLIP.
  • Модель декодера дифузії (unCLIP): Інверсія оригінальної моделі CLIP, яка генерує зображення, використовуючи зображувальні вбудови CLIP.

DALL-E 2 створює вихід, поєднуючи як попередню, так і unCLIP моделі. Зображення нижче приблизно окреслює основний процес.

Open AI model
Джерело: OpenAI

Як можна побачити на зображенні, модель unCLIP створює «ментальне» представлення зображення. Звідти вона створює оригінальне зображення на основі загального ментального представлення.

Ментальне представлення зберігає основні характеристики та риси, які є семантично узгодженими. Наприклад, тварини, об’єкти, колір, стиль і фон. Однак вихідне зображення є новим, оскільки воно варіюється. 

Зверніть увагу, що це лише короткий огляд того, як працює DALL-E 2. Технічні деталі та математика реалізації є більш складними (і виходять за межі цього огляду DALL-E 2).

Варто зазначити, що OpenAI опублікувала статтю: «Ієрархічна генерація зображень на основі тексту з використанням латентів CLIP» на початку цього року. Якщо вас цікавлять технічні специфікації DALL-E 2, це гарне місце для початку вашого дослідження.

Огляд DALL-E 2: Переваги та недоліки

Що можна робити з DALL-E 2

Зазвичай можна очікувати кілька високоякісних результатів від генератора мистецтва на основі ШІ, якщо використовувати точні та описові текстові підказки. Високоякісна підказка займає кілька секунд, щоб досягти рівня якості, який художник або цифровий художник створював би годинами, якщо не днями. І ви можете отримати доступ до всіх цих візуальних ідей безкоштовно. Зображення, створене ШІ, не вимагає плати за місце розташування та не потребує виплати заробітної плати творчим особам і моделям. Це, звісно, може бути як позитивом, так і негативом, залежно від точки зору.

DALL-E 2 використовує своє власне «розуміння» теми, стилю, колірних палітр і бажаного концептуального значення перед тим, як надати результат.

How to use DALL E 2 image generator

Ви можете мати до чотирьох подальших варіантів кожного зображення. Кожен з них відображає вигляд, відчуття та значення оригіналу, але з власним унікальним стилем.

DALL-E 2 review

Ви також можете редагувати зображення в DALL-E 2 — і це без будь-якого попереднього досвіду редагування фотографій. На відміну від деяких флагманських програм для редагування зображень, таких як Adobe Photoshop, редагування з DALL-E є надзвичайно простим. Наприклад, ви могли б намалювати астронавта, що йде по Марсу, а потім додати собаку до портрета. Вам просто потрібно буде ввести «поставити собаку за астронавтом». Аналогічно, ви також можете попросити програму змінити кадр зображення, збільшуючи або зменшуючи масштаб, поки не отримаєте бажаний результат.

Це лише верхівка айсберга, коли йдеться про можливості DALL-E 2. Краще розуміння можна отримати, витративши трохи часу на використання програми та спробувавши її різні функції.

Система за задумом не може генерувати контент, що містить порнографію, насильство або політичні елементи. Варто зазначити, що програма має свої обмеження та недоліки, які ми висвітлимо далі в цьому огляді DALL-E 2.

Обмеження

Велика частина якості виходу DALL-E 2 залежить від якості текстової підказки, яку ви надаєте. Чим конкретніші ви, тим вищі шанси отримати бажаний результат. Однак система має деякі внутрішні обмеження.

Наприклад, вона ще не дуже вправна у композиційності (хоча з часом удосконалюється). Це означає, що DALL-E 2 часто не може ефективно поєднувати кілька об’єктів або їхніх властивостей, таких як форма, орієнтація чи колір.

Це не все — програма також може не виконуватися належним чином навіть з (відносно) простими підказками. Наприклад, ми ввели текст «сто жаб, одягнених як римські солдати, що марширують через пустелю». Результат був незадовільним, навіть після того, як ми спробували кілька варіантів підказки.

text prompt

Інший приклад — відносно простий запит: «тиранозавр, що їде на одноколісному велосипеді перед Ейфелевою вежею». З якоїсь причини програма відмовилася малювати одноколісний велосипед, замінивши його двоколісним. (Хоча, якщо прибрати «Ейфелеву вежу» із запиту, вона без проблем створювала бажаний результат).

Це лише кілька прикладів обмежень DALL-E 2. Більш тривожні мають складну природу та можуть мати серйозні наслідки як для компанії, так і для її користувачів. Розгляньмо їх.

Проблеми

OpenAI запрограмувала DALL-E 2 не створювати зображення публічних діячів і знаменитостей. Фактично, програма категорично відмовляється генерувати зображення з реалістичними обличчями чи реальними людьми. Це крок у правильному напрямку для запобігання зловживанням. Однак, з огляду на зростаючу доступність додатків для створення діпфейків, зловмисники можуть взяти зображення DALL-E і додати до нього чиєсь обличчя.

Порушення авторських прав також може стати великою проблемою, оскільки DALL-E 2 набирає популярності. OpenAI заявила, що користувачі “отримують повні права на комерціалізацію зображень, які вони створюють за допомогою DALL-E, включаючи право на передрук, продаж і мерчандайзинг.” Однак генератори мистецтва на основі ШІ залежать від роботи людських художників для аналізу, навчання та створення мистецтва. Тому потенційне порушення законів про інтелектуальну власність – хоч і ненавмисне – не можна виключати.

Остаточний вердикт

Чи є DALL-E 2 досконалою? Як проєкт у процесі розвитку, ні. Але, як властиво машинному навчанню, програма з часом стає розумнішою та компетентнішою. З чисто технологічного погляду, DALL-E 2 — це значний крок вперед у розвитку технологій ШІ. Донедавна вважалося, що системи ШІ не можуть реально перевершити людей у творчих галузях, принаймні найближчим часом. Але DALL-E 2 уже спростувала цей аргумент. Водночас вона відкрила скриньку Пандори.

Справедливості заради, OpenAI вжила низку заходів для передбачення та запобігання потенційним зловживанням DALL-E 2. Це не є бездоганним, але певні механізми стримування та противаг діють. Скільки часу мине, поки не з’являться конкуруючі системи ШІ без етичних обмежень? Хоча важко сказати, ми уважно стежитимемо за цією галуззю, що розвивається. Генератори мистецтва на основі ШІ та технології, що їх підтримують, лише набиратимуть популярності в найближчі місяці та роки.

Часті запитання

Чи можна використовувати DALL-E 2 безкоштовно?

Чи доступний DALL-E 2 для загального користування?

Чи буде DALL-E 2 колись офіційно випущена?

Дисклеймер

Відповідно до принципів проєкту Trust Project, ця авторська стаття представляє точку зору автора і не обов'язково відображає погляди BeInCrypto. BeInCrypto залишається прихильником прозорої звітності та дотримання найвищих стандартів журналістики. Читачам рекомендується перевіряти інформацію самостійно і консультуватися з професіоналами, перш ніж приймати рішення на основі цього контенту. Зверніть увагу, що наші Загальні положення та умови, Полiтика конфіденційності та Дисклеймер були оновлені.

shilpa-lama.jpg
Шілпа - висококваліфікована фріланс-журналістка в галузі криптовалют та технологій, яка глибоко захоплюється штучним інтелектом та технологіями, що підтримують свободу, такими як розподілені реєстри та криптовалюти. Вона висвітлює індустрію блокчейну з 2017 року. До свого поточного перебування в технічних медіа, Шілпа надавала свої навички урядовим фінтех-проектам у Бахрейні та провідній некомерційній організації в США, яка підтримує проекти з відкритим вихідним кодом. У своїй поточній...
Прочитати повну біографію