ChatGPT нарешті може генерувати зображення з розбірливим текстом

У ChatGPT тепер можна генерувати зображення з GPT-4o. Нова модель генерації зображень, яка прийшла на зміну DALL-E 3, відрізняється точнішим відображенням тексту, покращеними можливостями «прив’язки» і простотою використання.

На відміну від традиційної дифузійної методології генерації зображень, яка «зафарбовує» деталі поверх випадкового шуму, GPT-4o використовує систему авторегресії зверху-вниз, збоку-вбік. Це повільніше, ніж дифузія, але переваги авторегресії очевидні. GPT-4o здатний генерувати зображення з ідеально розбірливим текстом – те, чого постійно не вдавалося досягти моделям зі штучним інтелектом, таким як DALL-E 3.

Мало того, ви можете вказати текстовий вміст для згенерованих зображень. Напишіть запит на кшталт «дай мені фотореалістичне зображення дівчини, яка пише на дошці від руки», скажіть ШІ будь-які слова, які ви хочете бачити на дошці, і він видасть вам щось досить точне. І, що, мабуть, ще важливіше, модель досить добре пише 2D-стилізований текст для ресторанних меню, рекламних оголошень та інших речей, які можуть бути корисними для бізнесу або любителів.

- Advertisement -

Авторегресійний підхід також допомагає з «прив’язкою» – простіше кажучи, ШІ не плутається в підказках, які містять кілька предметів. Якщо попросити DALL-E 3 намалювати червоне коло, синій трикутник, зелене серце, рожеву зірку і фіолетовий квадрат, він може заплутатись і згенерувати неправильні фігури або кольори. GPT-4o, з іншого боку, може точно обробляти до 20 різних об’єктів.

У поєднанні з можливостями рендерингу тексту, покращена прив’язка створює цікаві можливості для корпоративного мистецтва або реклами, хоча це також просто корисна річ, яка полегшує генерацію зображень.

Звичайно, GPT-4o генерує зображення просто «краще», ніж DALL-E 3. Фотореалістичні зображення виглядають більш наближеними до життя, цифрове мистецтво виглядає менш розмитим або зернистим, а нові методи виведення зменшують необхідність друкувати довгі, складні підказки. Модель також може похвалитися покращеною «узгодженістю символів», що означає, що символ або об’єкт, згенерований в одній підказці, може бути точно перенесений у наступні підказки – якщо ви скажете ШІ повторно використати кіборга-кішку, яку він створив, він не змінить колір кішки тощо.

OpenAI визнає, що його нова модель генерації зображень недосконала. Вона все ще бореться з галюцинаціями, математичними зображеннями (наприклад, діаграмами або графіками), багатомовним текстом тощо. Проте, це, безумовно, покращення порівняно з попередніми моделями генерації зображень компанії.

Також: Використання ChatGPT викликає відчуття самотності, – Дослідження

OpenAI стверджує, що генерація зображень GPT-4o містить засоби захисту для запобігання зловживанню, а також вдосконалені методи нанесення водяних знаків, щоб допомогти людям відрізнити контент, створений ШІ, від справжнього, створеного людиною. Але я ризикну припустити, що ці запобіжники можна обійти, якщо докласти певних зусиль. І OpenAI все ще використовує водяні знаки C2PA, які є лише метаданими. Потрібно дуже мало зусиль, щоб видалити ці метадані з зображення – C2PA неефективний для запобігання поширенню дезінформації.

Новий генератор зображень GPT-4o також не зменшить занепокоєння щодо авторських прав чи добросовісного використання. Згідно із заявою, наданою The Wall Street Journal, він навчався на суміші «загальнодоступних» і ліцензованих даних. ШІ-компанії, як відомо, нахабно ігнорують базові закони про авторське право, а OpenAI не ділиться своїми навчальними даними з громадськістю, тож не соромтеся робити власні висновки з цього приводу. (До речі, OpenAI дійсно піклується про авторські права, коли її роботу крадуть).

Генерувати зображення з GPT-4o можна вже сьогодні. Просто відкрийте ChatGPT у вашому браузері, попросіть ШІ згенерувати зображення і насолоджуйтеся. Зверніть увагу, що впровадження не завершено, тому деякі користувачі все ще можуть зіткнутися зі старою моделлю DALL-E 3.

- Advertisement -

Найкращий спосіб визначити різницю – поспостерігати, як завантажується згенероване зображення. DALL-E 3 завантажує зображення за допомогою колеса, що обертається, в той час як зображення GPT-4o завантажуються за допомогою приємної анімації, що нагадує рух планшетного сканера зверху вниз з боку в бік.

Всі користувачі ChatGPT мають доступ до генерації зображень GPT-4o, включно з безкоштовними користувачами. Однак, безкоштовні користувачі стикаються з обмеженнями у використанні, як і при використанні DALL-E 3. До речі, DALL-E 3 залишиться доступним у користувацьких форматах GPT для тих, хто хоче ним користуватися.