З появою моделі перетворення тексту у відео SORA від OpenAI ми дивимося на неминуче майбутнє, повне відео, створеного штучним інтелектом. Але технологія ще не доведена до досконалості, тому ось кілька порад, як розпізнати відео, створене штучним інтелектом.

Зміст

Розпізнати відео, створене штучним інтелектом, може бути непростим завданням Шукайте ледь помітні зміни та “привидів”АІ бореться з пальцями, окулярами та дрібними елементами Придивіться до об’єктів на задньому плані зображення Освітлення та “аура АІ”Ефект моторошної долини Обережно, нісенітниця Навчіться краще розпізнавати такий контент

Розпізнати відео, створене штучним інтелектом, може бути непростим завданням

На перший погляд, вам пробачать, якщо ви видасте відео, створене штучним інтелектом, за справжнє. Але тільки коли ви почнете дивитися трохи глибше, ви можете помітити, що щось не так.

Усі приклади, про які ми розповімо в цій статті, стосуються моделі перетворення тексту у відео SORA від OpenAI, анонсованої в лютому 2024 року. Це, безумовно, найдосконаліша модель у своєму роді, яка перетворює текстові підказки на рухомі зображення. З моменту появи на початку 2023 року сумнозвісного посту на Reddit про Уілла Сміта, який їсть спагетті, пройдено довгий шлях. На момент написання статті в березні 2024 року SORA все ще перебуває в стадії закритого тестування.

Виявлення фотографій і відео, створених штучним інтелектом, – це радше мистецтво, ніж точна наука. Існують способи визначити, чи була фотографія створена за допомогою штучного інтелекту, але вони не працюють стабільно. Інструменти, призначені для виявлення вмісту зі штучним інтелектом, часто ненадійні, навіть коли йдеться про текст.

Мета цієї статті – висвітлити деякі способи, за допомогою яких ви можете виокремити вміст, створений штучним інтелектом, принаймні на даний момент. Пам’ятайте, що моделі постійно розвиваються, тому ці ознаки буде складніше виявити. Іноді вибір теми та контексту відео може мати вирішальне значення.

Шукайте ледь помітні зміни та “привидів”

Пошук малопомітних змін – це один із способів виявити переконливу підробку ШІ, але це не так просто. Один із прикладів SORA від OpenAI зображує жінку, яка йде по освітленій неоновим світлом вулиці Токіо. Сцена вражає, як для інструменту перетворення тексту у відео, настільки, що ви могли б пропустити зміну гардеробу наприкінці відеозапису.

Одяг жінки у початковій сцені – це червона сукня з кардиганом на повний зріст і шкіряною курткою. Кардиган трохи дивний у тому сенсі, що він нібито зливається з курткою, але я не зовсім експерт моди, тому пропущу його повз вуха:

Тепер подивіться на той самий одяг крупним планом, і ви побачите, що на сукні з’явилися темні плями, а шкіряна куртка має набагато більший лацкан, зміщений від центру:

Це настільки малопомітно, що більшості людей знадобилося б переглянути відео кілька разів, щоб помітити це. Сцена щільна, наповнена віддзеркаленнями та акторами на задньому плані, що допомагає відволіктися від помилки.

Ще одна річ, на яку варто звернути увагу, – це привиди або об’єкти, які поступово з’являються і зникають з поля зору. Відео OpenAI про каліфорнійське містечко часів золотої лихоманки є гарним прикладом цього. Погляньте на цю досить розпливчасту фігуру, яку ваш мозок, ймовірно, інтерпретує як людину з конем:

Через дві секунди фігура повністю зникла. Якщо ви подивитеся відео, то побачите, як ця фігура зливається з землею, наче привид:

АІ бореться з пальцями, окулярами та дрібними елементами

Однією з найбільших проблем для АІ-моделей є кінцівки та тонкі лінії. Зокрема, уважно придивіться до рук, предметів, які тримають у руках, окулярів, а також до того, як вони взаємодіють з людськими рисами (наприклад, капелюхами, шоломами або навіть волоссям).

На відео такі помилки легше виявити, ніж на фотографіях, згенерованих штучним інтелектом, оскільки ці особливості можуть змінюватися від однієї сцени до іншої.

Особливо складно штучному інтелекту впоратися з розміщенням пальців і кистей рук. Генеративні моделі мають тенденцію створювати руки з більшою або меншою кількістю пальців, ніж ви очікуєте. Іноді все виглядає не зовсім правильно, пальці дуже тонкі або занадто багато кісточок. Предмети, які ви тримаєте в руках, виглядають так само дивно, іноді здається, що людина в кадрі поглинула те, що вона тримає в руках.

Шукайте окуляри, які не здаються симетричними або зливаються з обличчям. У відео вони можуть навіть з’являтися і зникати з поля зору і змінюватися між сценами. Те саме стосується рук і ніг, просто погляньте на це відео SORA про людей у Лагосі, Нігерія:

lagos third arm — Прибери, будь ласка, свою третю руку з моєї ноги

Придивіться до об’єктів на задньому плані зображення

Деталі фону часто видають фальшиве відео, згенероване штучним інтелектом, навіть більше, ніж фотографії. Хороший фейк залежить від того, наскільки переконливим є об’єкт, щоб відволікти вас від того, що фон поводиться не зовсім так, як мав би поводитися.

Погляньте ще раз на відео нічного Токіо. Ця сцена настільки щільна, що легко прийняти все за чисту монету, але придивіться до людей, які йдуть на задньому плані, особливо до тих, що ліворуч від об’єкта зйомки:

Деякі з цих рухів виглядають неправильно. У якийсь момент людина ніби дублює саму себе. Пізніше те, що здається групою людей, перетворюється на єдиний об’єкт, ніби всі вони одягнені в однакові спідниці або пальта. У деяких місцях анімація ходьби також є дивною.

Слідкуйте за підозрілою фоновою активністю, щоб виявити відео, згенероване штучним інтелектом. Іноді ви помітите, що природні об’єкти, такі як дерева, поля або ліси, взаємодіють у дивний спосіб. Перспективи можуть здаватися зміщеними, іноді рухомі об’єкти не зовсім збігаються з траєкторією, зображеною в анімації.

Інший приклад – зняте дроном OpenAI узбережжя Біг-Сур. Ви коли-небудь бачили настільки пряму хвилю в природі?

Освітлення та “аура АІ”

Це те, що ми часто бачили на фотографіях, згенерованих ШІ, і це, мабуть, більше “відчуття”, ніж об’єктивна риса, яку можна ідентифікувати. Якщо освітлення виглядає особливо пласким і неприродним у випадках, коли ви очікуєте більшої варіативності, це може свідчити про те, що воно може бути несправжнім.

Наприклад, відсутність таких недосконалостей камери, як цвітіння, вигорання світла (коли світлі ділянки втрачаються через надмірне потрапляння світла в об’єктив) або зсув тіней (коли деталізація тіней втрачається через відсутність світла) просто відсутня.

Все може виглядати як висококласний музичний кліп або як відеоігри в часи, коли ще не було реалістичного освітлення і трасування променів. Об’єкти можуть виглядати ідеально освітленими там, де ви не очікували, що вони будуть освітлені.

Ефект моторошної долини

Ефект моторошної долини – це термін, який використовується для опису змішування людських і нелюдських рис у такий спосіб, що глядач відчуває себе некомфортно. Андроїди або людиноподібні роботи часто наводяться як приклади, оскільки вони зовні виглядають як люди, але в той же час неминуче є нелюдськими.

Найчастіше ефект моторошної долини просто зводиться до відчуття. Ви відчуваєте, що щось не зовсім правильно, але не можете точно визначити, що саме. Цей ефект часто з’являється на фотографіях і відео, згенерованих штучним інтелектом, і одна з областей, де я його відчув, – це відео з космонавтом від SORA.

Якщо на секунду проігнорувати, що космонавт одягнений у в’язаний космічний шолом, щось у його обличчі викликає тремтіння в моєму тілі:

А ще є така ж моторошна бабуся, яка не може задути свої святкові свічки, що виглядає набагато гірше в русі:

Обережно, нісенітниця

Здається, що це найпростіший червоний прапорець, який можна помітити, але іноді ваш мозок просто пропускає речі повз увагу. Вищезгадане відео про космонавта – гарний тому приклад. Там є коротка сцена з дверима, або ручкою, або важелем, або чимось, що просто не має сенсу:

Що це за об’єкт? Чому анімація ніби відтворюється у зворотному порядку? В’язаний шолом я можу пробачити, але ця річ спантеличила мене з того моменту, як я її побачив.

Те саме стосується рухів. Відео SORA про кота в ліжку вражає, але рухи неправильні. Власники котів визнають, що поведінка є дивною і неприродною. Відчувається невідповідність між поведінкою об’єкта та контекстом ситуації. З часом це покращиться.

Спотворений текст – ще один гарний приклад того, що генеративні процеси ШІ часто помиляються. Японські ієрогліфи у відео нічного Токіо від SORA – це плутанина, так само як і деякі дорожні та магазинні вивіски. Вибір сцени, де більшість людей не в змозі відрізнити японську мову від поганого відображення, був розумним рішенням з боку OpenAI.

Навчіться краще розпізнавати такий контент

Найкращий спосіб навчитися розпізнавати контент, створений штучним інтелектом, – це вивчати його самостійно. Більшість генеративних моделей мають активні спільноти як в Інтернеті, так і на платформах соціальних мереж, таких як Reddit. Знайдіть такі спільноти і подивіться, що помічають інші люди.

На момент написання цієї статті SORA від OpenAI не був доступний для публічного використання, тому вам доведеться почекати, перш ніж зануритися в роботу самостійно.

Відео, створене штучним інтелектом, вражає, зачаровує і лякає однаковою мірою. З часом ці поради, ймовірно, стануть менш актуальними, оскільки моделі подолають свої слабкі сторони. Тож пристебніть ремені, адже дуже скоро ви побачите набагато більш реалістичні та моторошні відео, створені штучним інтелектом.