Відео, створене за допомогою штучного інтелекту, стрімко розвивається, а провідні розробники технологій змагаються у створенні та комерціалізації власних моделей. Зараз ми спостерігаємо появу інструментів, які можуть генерувати вражаюче фотореалістичне відео на основі однієї підказки природною мовою. Однак здебільшого відео, створене штучним інтелектом, має кричущий недолік: воно беззвучне.
Відтепер це змінилося. На своїй щорічній конференції для розробників I/O у вівторок Google оголосила про випуск Veo 3, останньої ітерації своєї моделі штучного інтелекту, що генерує відео, яка також має можливість генерувати синхронізоване аудіо.
Уявіть, що ви просите систему згенерувати відео, наприклад, у переповненому вагоні метро. Veo 3 може створити відео разом із фоновим шумом, згенерованим штучним інтелектом, щоб додати відчуття реалістичності. За словами Google, ви навіть можете попросити його генерувати звуки людських голосів.
Переглянути в Threads
Як повідомляється, модель також спеціалізується на імітації реальної фізики та синхронізації губ, що робить її потенційно цінним інструментом для кінематографістів і просуває ширшу місію Google щодо впровадження штучного інтелекту в креативні індустрії. Він вже доступний для передплатників Gemini Ultra у США. До нього також можна отримати доступ через Flow, новий інструмент Google для створення фільмів на основі штучного інтелекту, який також був представлений на I/O цього тижня.
Серйозний технічний виклик
Veo 3 – одна з перших моделей від великого технологічного розробника, яка може синхронізувати відео та аудіо, згенеровані штучним інтелектом. Інша – Movie Gen від Meta, випущена в жовтні. Деякі інші інструменти, такі як Runway’s Gen-3 Alpha, оснащені функціями, які дозволяють накладати згенероване АІ аудіо на відео в процесі постпродакшну, але одночасне створення двох типів відео вимагає обчислювальних потужностей і ресурсів такої великої компанії, як Google.
Створення моделей ШІ, здатних генерувати синхронізоване відео та аудіо, є складним технічним завданням і активним напрямком досліджень в індустрії ШІ. І відео, створене штучним інтелектом, і аудіо, створене штучним інтелектом, є окремими технічними проблемами, а їхнє поєднання створює абсолютно новий вимір складності. Ось демо-версія Veo 3.
З одного боку, відео – це серія нерухомих кадрів, тоді як аудіо – це безперервна хвиля. Синхронізація цих двох типів вимагає моделей, які можуть працювати з цими двома модальностями, враховуючи їхню значну різницю в часі, в якому вони працюють.
ШІ-модель, що поєднує відео зі звуком, повинна також мати можливість динамічно враховувати такі змінні, як матеріал, відстань і швидкість. Звук автомобіля, що їде зі швидкістю 100 км на годину, значно відрізняється від звуку автомобіля, що їде зі швидкістю 20 км на годину; звук коня, що йде по бруківці, відрізняється від звуку коня, що йде по траві.